2. 复旦大学 计算机科学技术学院, 上海 200433
2. School of Computer and Technique, Fudan University, Shanghai 200433, China
近年来,随着大规模标定数据集[1]和深度神经网络结构[2-3]的提出,深度学习算法在图像分类[2]、语义分割[4]、目标检测[5]、显著性检测[6]等任务上取得了很高的准确率,甚至超过人类的认知水平。这些视觉领域的突破为人工智能在工业界的应用提供了可能性。但是,将深度学习算法用于实际应用的过程中,往往面临着巨大的挑战。首先,现实场景往往要比公开的实验数据集更加复杂,构造一个能够覆盖完整样本分布的数据集,需要耗费大量的人力和财力去采集数据和标定数据[7];此外,现实场景中的目标类别呈现长尾型分布,数据丰富的类别只是占总类别的一小部分,科研人员感兴趣的目标类别往往难以获取其训练数据;另外,随着社会的不断发展,新的物体类别会不断出现[8],如果让深度神经网络学习这些新的概念,需要及时提供大量的标定数据。从以上几个方面可以看到,如何利用少量样本数据来训练一个面向智能感知的任务模型,对于深度学习的实际应用和探索新的机器学习机制是一个基础且具有深远意义的问题。
相比于机器学习,人类有更好的学习能力:人可以只借助少量训练数据就可以完成新概念的学习,并且做出准确的预测和评估[9]。一个最直观的例子是:当一个儿童已经学会了狗的概念的时候,只需要少量的样本他就可以学习到狼的概念。这意味着,人可以充分利用已有知识,在此基础上结合少量的样本数据,就能够迁移、泛化到新的领域中。另一个例子是:只需要给一个物体的少量照片,儿童便可以在现实中快速认得照片里的物体。以上例子说明,现有的基于数据驱动的深度学习,其通用性、泛化能力还远不及人类的学习能力。如何模仿人类的学习过程[10],设计更加合理的机器学习方法解决数据缺失条件下的目标检测和识别,具有重要的现实意义。
针对样本缺少的应用场景,国内外学者提出了一类新的机器学习问题:小样本学习[11-14]。具体地说,小样本学习问题是指只给定目标少量训练样本的条件下,如何训练一个可以有效地识别这些目标的机器学习模型。按照训练样本的多少可以将小样本学习分为3类:①只有一个训练样本,这种学习方法我们称为单样本学习;②当不存在待识别目标训练样本的时候,我们称这类问题为零样本学习[15-19];③当拥有目标训练样本在数十个量级的机器学习问题,我们称之为小样本学习。也有学者将以上3类均称之为小样本学习,前两类作为第3类的特殊情况。按照解决小样本识别问题的技术途径,可将方法分为:①基于初始化的方法,该类方法通过在源域上学习网络模型或者优化器的初始化,使得模型可以仅有少量测试集的目标域上完成快速迭代并泛化;②基于度量学习的方法,度量学习也被称为相似度学习,核心是使得不同类别的图片相似度小而相同类别的图片相似度大,给定一张目标域的样本,就可以找到和它最相似的带标签实例。这类方法也是目前最常见的方法;③基于数据生成的方法,该类方法旨在如何更好地利用源域的充足数据,来训练生成模型,把源域数据的多样性迁移到数据匮乏的目标域,为目标域提供充足的数据来进行监督学习。
目前,在人脸识别领域,首先可以利用大量的人脸训练样本来进行人脸的属性学习、特征提取、和形变模型的参数,通过这些获取的知识和给定的少量样本,借助孪生网络来帮助目标人脸的识别和生成任务[20-21];此外,在机器人领域,小样本学习也具有很大的实用价值[22],包括小样本模仿问题、多摇臂赌博机、视觉导航、以及连续运动的控制。在工业应用领域,小样本学习因其可以大大降低数据采集和标定成本,在诸多视觉任务中已经得到研究人员的关注,其中包括:图像分类、图像检索[23]、目标跟踪[24]、手势识别[25]、看图说话[26]、视觉问答[27]、视频活动检测[28]、语言模型[29]、网络结构搜索[30]等问题。
现有的小样本学习相关研究大多集中在图像分类任务上,对于目标检测领域涉及的研究相对较少。小样本学习应用于检测任务比分类任务往往更加具有挑战性,其难点在于:目标检测本身的难度[31-32],包括背景和目标之间的语义混淆、背景和目标之间的类别不平衡、回归部分的难以迁移性等。现有的小样本检测算法解决的问题可以与小样本学习问题对应起来,分为单样本目标检测、零样本目标检测以及小样本目标检测。与图像分类不一样,目标检测问题是在只提供测试类别少量的图片和定位框的前提下,要求算法完成在测试图像中对目标进行类别和位置的预测[33-38]。
近些年来,小样本学习引起了工业界和学术界的广泛关注,文献[32]对小样本图像分类问题作了系统而详细的介绍,但对小样本条件下的目标检测问题目前还没有全面的综述工作。本文首先对小样本学习的问题定义、典型算法进行了介绍,重点对现有的小样本目标检测和零样本目标检测的研究工作进行了概述,并对该问题的未来发展提出了一些启发式的建议,希望这篇综述可以对小样本学习在目标检测任务中有一定的推进作用。
1 问题定义本节介绍了小样本学习的问题定义,包括小样本图像分类和小样本目标检测,以及与之相关的机器学习任务。在1.1节中,从任务目标、训练数据2个方面,给出小样本图像分类任务的定义;在1.2节中,给出了小样本目标检测任务的定义,同时给出了零样本目标检测的定义;在1.3节中,对比了小样本图像分类任务和小样本目标检测任务的差异,论述了两个任务存在的挑战;在1.4节中,介绍了一些与小样本学习相关的机器学习任务。
1.1 小样本图像分类考虑一个小样本图像分类任务T,任务目标是将目标域的图像正确地分类到对应的目标域类别上。任务T的训练数据包含2部分:源域训练集Dsource和目标域训练集Dtarget。D中的每一组数据由图像特征和对应的类别标签y组成。图像特征x可以是原始的图像数据,也可以是通过某种特征提取器提取的特征。Dsource和Dtarget的类别互不相同,不存在交集。通常情况下,源域的训练集Dsource包含充足的训练数据,目标域的每个类别只包含少量的训练数据。特殊情况下,当每个类别只包含单个样本的时候,小样本图像分类任务被称为单样本图像分类任务;当目标域每个类别都不存在训练样本的时候,这种场景下的小样本图像分类称为零样本图像分类。零样本图像分类任务通常需要利用类级别的属性或者语义信息[33],把源域的知识迁移到目标域,来完成目标域的图像分类任务。
小样本图像分类任务旨在设计合理的机器学习算法,充分利用源域的信息和少量目标域的监督信息,来提高目标域图像分类的准确率。
1.2 小样本目标检测小样本目标检测任务T要求在一张图像中准别定位并识别属于目标域的物体,只允许使用目标域的少量监督信息。和小样本图像分类任务一样,训练数据可以分为数据丰富的源域数据集Dsource和少量数据的目标域数据集Dtarget。在源域训练集中,每一张图片x会给定属于源域的所有物体的位置标定i和类别标定y。目标域的训练集中每一张图片,会提供属于目标域类别相关的少量位置标定和类别标定。同样地,给目标域每一个类别只提供一个物体标定时,这种场景下的小样本检测称为单样本检测;当目标域每一个类别不提供任何物体标定时,只提供每个类别的属性标定时,这种场景下的小样本检测问题称为零样本检测问题。
小样本目标检测算法通过在源域上学习与类别无关的元知识[34],然后直接将元知识迁移到目标域的预测阶段;对于零样本检测问题,在源域上训练图像到语义的映射关系,然后把这个映射关系直接迁移到目标域中,直接完成目标域物体的检测任务。
1.3 小样本学习的挑战性过拟合问题:对比小样本图像分类任务和有监督图像分类任务,由于目标域类别只存在少量样本,在训练机器学习模型时,很容易导致模型出现过拟合,得到的模型在实际测试集上性能很差。利用源域的数据作为先验知识,来辅助目标域训练时,一定程度上可以防止过拟合现象,由于源域和目标域往往存在着领域漂移问题[35],特别情况下,知识在向目标域迁移的时候还会出现负迁移。
以上的问题对于小样本图像分类和小样本目标检测任务都是存在的,但是小样本检测问题相对于小样本图像分类却存在着更多的挑战。这种挑战性来自于2个方面:一方面,检测任务相对于分类任务要更难一些,检测任务除了需要训练分类网络给候选框分类,还需要回归出每个物体的空间位置和大小,检测过程中会面临严重的正负样本不平衡问题和小物体漏检问题;另一方面,背景类和目标域之间存在语义混淆,检测任务相对于分类任务多了背景这一类,在小样本检测任务设定下,由于目标域训练数据较少,无法很好地表征目标域的数据分布,在这种情况下,对目标域检测时,很容易将目标域的类别和背景类之间相互混淆,影响模型的准确性和召回率。
1.4 小样本学习相关的机器学习任务小样本学习本质上属于机器学习范畴的一个子研究领域,与半监督学习等机器学习方法有着紧密的联系,同时也存在着不同。
1) 半监督学习。半监督学习[36]是监督学习[37]与无监督学习相结合的一种机器学习方法。半监督学习通过使用少量标记数据,同时使用大量的未标记数据来对模型进行训练。近年来,半监督学习因其能够显著降低人员的数据标注工作量,同时又能够提高算法的性能,目前正越来越受到人们的重视和关注。小样本学习可以嵌入到半监督学习的场景中,一种是通过标定少量重要的无标签数据来训练机器学习模型,在此基础上利用大量无标签数据强化模型;另外一种是先让模型在无标签数据下进行自学习,然后利用带有标签的小样本学习,来加强原有的学习模型[38]。当然,与半监督学习不同,小样本学习在大部分场景下不需要无标签样本的帮助。
2) 弱监督学习。弱监督学习[39]是一类介于有监督和无监督之间的一种学习方式,除了有给定的确切的监督信息外,还允许有一些额外的弱监督信息来帮助模型提升表达能力。弱监督学习发展到现在,可以分为以下3个方向:不完全监督,即半监督学习,只有一部分样本有标签;不确切监督,即训练样本只有粗粒度的标签,例如,一张图像只有图像类别标签,没有图像中目标具体的标注信息;不准确监督,是指给定的数据集中存在错误的标签,即在含有噪声标签时的学习问题。通常情况下,小样本学习的经验E只允许使用少量的标签信息,弱监督学习中的弱监督信息和小样本学习中的先验信息对整个学习任务起的作用是相当的。
3) 迁移学习。迁移学习[40]是指利用源域中学习到的知识应用目标域任务的一类机器学习方法。通常源域的数据是足够充足并且容易获取的,目标域的数据是相对比较稀缺的。领域自适应是迁移学习里面的一个基本任务,在这类问题里,源域和目标域有着相同的任务,但是特征的分布是不一样的。小样本学习和零样本学习都可以利用迁移学习这种机制,利用源域的知识来学习一些先验知识,从而来约束目标域的学习。
4) 元学习。元学习[41-42]又被称为学会学习, 这一类学习通过在一系列和目标任务相似的任务中训练,在训练中可以获取到一些元知识,比如说适合任务的优化器(元优化器),或者是适合任务的初始化机制(元网络),又或者是适合这一类任务的训练方法。元学习器可以在多轮任务迭代中学习到一些通用性的知识,这些新的知识可以帮助新的任务快速迭代,并取得更加好的性能。许多小样本学习算法都采用元学习的思路,它们利用元学习机制在源域上训练,将学习的知识用于含有少量样本的目标域,从而提高目标域的性能。在后面的章节里,把这一类方法称为基于初始化的方法。
5) 零样本学习零样本学习[43-46]和单样本学习都属于小样本学习,零样本学习希望机器学习模型对从来没见过的目标也能够进行分类,对标签数据的要求更低。它将源域的中学习的视觉-语义映射应用于目标域,即使目标域一个训练数据也不提供,依然可以利用这个视觉-语义映射来实现图像分类和目标检测等任务
2 小样本学习算法小样本学习的核心难题是由于样本量不够,导致经验风险最小化带来的最优解和真实解之间的误差变大[47]。为了更好的利用先验知识来解决以上的难题,从数据、模型、算法3个角度,将已有的小样本学习算法分为3类:基于数据增强的方法、基于度量学习的方法和基于初始化的方法。接下来对每类方法的主要思想进行概述,并通过几个具有代表性的工作来详细解释该类方法[48]。
2.1 基于数据增强的方法该类方法的主要思想是“如何利用数据增强”[49]来解决目标域的数据不足。这类方法旨在如何更好的利用源域的知识,来实现目标域的数据增强。目前,该类方法主要包括:在图像特征层面上来增强数据和在原图像层面来增强数据2大类。在图像特征层面对数据进行增强有3种方式:①利用四元组损失函数,将源域中图像特征的方差变化来迁移到目标类,从而丰富目标域特征的变化; ②利用额外的类级别的语义信息,来学习图像-语义-图像的自编码器,从语义空间上扰动来帮助图像特征域来进行数据增强;③利用生成对抗网络来学习源域的特征分布,从而在目标域的特征空间生成新数据,达到数据增强的目的。直接利用原始图像信息进行数据增强,一方面可以利用自学习框架和拼图法将源域的图像块和目标域的图片相互融合,来扩充目标域的样本;另外,采用图像变形网络来融合源域相关的图像和目标域的少量样本,也可以获取增强样本。下面通过几个代表性的工作来具体阐释以上方法的主要思路。
1) 四元组增强法。在小样本学习中,通常情况下源域中的数据是充足的,且每一类的数据具有多样性;而目标域由于是小样本问题的设定,往往每一类数据之间的方差很小。虽然可获取的目标域中的样本数据有限,但源域和目标域中数据的分布存在相似之处,包括数据的变化模式,具有一定的共同性。一种直观的思路是通过训练一个网络把源域里方差信息和类别内的变换迁移到目标域图像中,来产生新的训练数据。Hariharan等巧妙地设计了一组四元组优化方案,来学习这种变换迁移方法[50]。四元组生成法是指,设计相应的生成网络,利用前3个元素作为输入,生成第4个元素。利用源域中训练好的网络,可以直接用于目标领域,生成相应的样本,达到数据增强的目的。
2) 语义自编码器。类级别的语义信息是一种有用的先验信息,利用语义信息,可以从更高层面进行数据增强。Chen等[51]巧妙地利用了这个思路,首先在源域上训练一个用于分类任务的残差网络,然后选取残差网络中的几层作为视觉特征。在已有的视觉特征基础上,该方法构造了一个从视觉特征到语义特征的编码网络,同时也构造了一个从语义特征到视觉特征的解码网络。编码网络和解码网络共同构成了一个视觉-语义-视觉自编码器,这个自编码器在源域上训练得到优化[52]。对于目标域的少量样本数据,可以利用源域训练好的特征提取网络和编码网络,将目标域的图像转换到语义空间上,在语义空间上添加高斯噪声或者一些随机采样,来产生增强的样本。
3) 生成对抗网络。生成对抗网络[53]是由一组生成器和判别器组成,生成器和判别器之间进行交替优化,互相博弈,最终使得优化后生成对抗网络,可以完成从高斯噪声到图片分布的转换。但是直接将生成对抗网络用于目标域图片的生成往往是行不通的。一种通常的思路是利用条件生成对抗网络[54]来进行数据增强。条件生成对抗网络的生成器除了要求输入高斯噪声,还需要输入给定类别的图片,然后优化对抗损失,使得生成器可以生成特定类别的图片。
除此之外,Chu等[55]提出循环一致生成对抗网络,这类方法主要是利用对抗损失,来学习源域到目标域之间的转换关系。但是直接将这种机制用于目标域图片的生成,往往会由于目标域图片数量不足,导致源域到目标域转换的对抗损失监督信息异常。Hosseini-Asl等[56]提出了一种改进版的循环一致生成对抗网络,将源域到目标域的对抗损失松弛,保证从源域到目标域的转换结果和目标域到源域的转换结果一致。实践证明,这种改进版的生成对抗网络,对于小样本图片识别、语音识别[57]和文本识别都有很大的提升作用。
4) 图像块组合法。该类方法利用图像融合技术融合源域和目标域的信息来产生新的训练数据。主要思想就是将大量无标定的样本,通过设计合理的机制,将这些数据中可以利用的数据和目标域信息融合来产生新的训练数据。
Chen等[58]将拼图法的思路,同时采用自学习机制,组合源域数据、目标域数据以及无标定的数据来产生新的训练数据。整个训练过程采用迭代的方法,逐步扩充组合后的样本,并用于最终训练。上述方法进行拼图法融合的时候,采用随机的方式来组合图像块。Chen等[59]在此方法的基础上进行了改进,利用卷积形变网络来训练这个组合方式,将原来的组合方式从随机性变得和任务相关。
基于数据增强的方法充分利用源域的数据,来为目标域生成大量的训练样本,使得小样本图像分类问题可以很自然地使用有监督学习里经典的机器学习算法。在未来的研究中,基于数据增强的方法仍然存在大量可以探索的空间,如何设计更加合理的生成方法和如何更加合理地使用源域信息都是值得研究的。
2.2 基于度量学习的方法这类方法用“如何度量数据的相似程度”来解决小样本学习问题。其主要思想是:如果一个模型在某个域上具备了度量2张图片相似度的能力,那么给定一张目标域的样本,就可以找到和它最相似的带标签实例。为了取得这种复杂的度量模型,研究者们引入元学习的思路,把源域划分成一批小样本学习的子任务,并采用各种不同的度量学习目标函数,来获取合理的度量表示。这类方法的代表性工作有:匹配网络[60]、原型网络[61]、关系网络[62]、R2-D2[63]、GNN[64]。它们分别采取了余弦相似度、欧氏距离表示、卷积神经网络关系距离、岭回归和图神经网络等不同度量方式在源域进行度量学习。另外,还有一种特殊的基于度量学习的方法——直接预测权重的方法,该方法通过训练过程预测目标域的权重方式,直接获取对未见目标分类的网络模型,这种方式可以有效克服微调过程的过拟合问题,提高模型的泛化能力。
1) 匹配网络。随着深度学习在图像处理领域取得的突破性进展,近年来,基于度量学习的人脸识别也取得了长足的发展。人脸识别本质上是一类特殊的小样本识别问题。匹配网络是第1个将度量学习用于小样本分类的工作,该方法利用神经网络作为特征提取器,并利用余弦相似度来做分类的基准。在源域上将少量有标定文件和大量无标定文件同时进行训练,通过无标定的目标分类的准确率来辅助特征提取器进行训练。这种类似元学习的方法,可以很自然地过渡到目标域。为了更好地挖掘训练过程中的完整信息,匹配网络利用双向的长短记忆网络[65],来帮助模型学习注意力机制[66],从而使得度量学习方法更加鲁棒。
2) 原型网络。在零样本学习中,目标域不提供任何图像的监督信息,问题设定里一般会提供目标域和源域之间共享的语义信息。每个类别的语义向量可以看作是这一类的原型表示,通过学习特征空间到原型空间的映射,从而完成零样本学习任务。小样本学习场景往往恰好相反,这一类问题一般不提供语义信息,但是会提供目标域的少量样本。原型网络巧妙地借用卷积神经网络,借助欧式空间的中心点损失函数,来学习从图像空间到特征中心的映射。在测试阶段,可以将少量的目标域标签样本输入网络,获取目标域类别的原型,最后利用这些原型表示,来获得最终的决策模型。另外,该方法不仅支持小样本学习,而且还支持在线学习。在线学习场景里,可以利用新的数据来进一步地调整原型中心,使得中心具有更强的表示能力。
3) 关系网络。匹配网络和原型网络在完成最终的决策时,一般会包含特征提取和利用特定度量方式进行决策2个步骤,而深度学习在目标检测领域的成功应用表明,这种多阶段的方式往往无法发挥神经网络的最大性能。关系网络采用了端到端的学习思路,将特征提取和度量空间的决策过程融入到一个单一的网络。关系网络少量标签样本和测试图片,共用一个孪生的卷积神经网络来提取特征,并同时得到类别的输出,这种端到端的训练方式,可以让网络在训练的过程中自主地选择和特征最匹配的度量方式,充分发挥了卷积神经网络的性能。实验证明,这种端到端的简单易实现的框架,不仅对于小样本分类任务有帮助,对于零样本分类任务也有很大的效果提升。
4) 预测网络权重方法。与一般的度量方式不同,该方法直接利用源域预训练的网络和源域的样本以及目标域的样本,通过估计目标域的网络参数,直接获取的目标域分类模型[67]。这种方法在原型网络基础上,将神经网络最后一层的全连接网络分类器度量调整为余弦相似度,使得网络直接输出结果。这一类方法的优势是在于,直接在源域上进行余弦相似度的训练,经过极为简单的调整,将目标域的分类网络参数写入到原始网络,就可以得到目标域的分类模型。同样的思路,Gidaris等[68]利用带注意力机制的网络来预测未见类的网络参数。网络通过接收源域的数据、目标域的数据以及未见类的参数,有选择地选取和目标域相关的类别来预测未见目标对应的分类器的权重。
5) 特征对齐方法。Motiian等[69]提出一种新的基于特征对齐的度量学习方法。通过源域样本与目标域样本配对的方式增广目标域样本。首先将源域中与目标域中类别相同的样本进行配对,然后经过特征提取网络分别对样本提取特征,因为两者均为同一类别,因此损失函数将减小两者间的差异。同时特征对齐方法也将从源域与目标域中类别不同的样本采样进行同样的配对,但是和前者不一样的是,经过特征提取网络后这两者的类别表示是不一样的,因而损失函数采取的策略是扩大两者在特征层面的差异。特征对齐方法中损失函数能够减小类内差异同时扩大类间差异,通过这样的方式使得模型在目标域上的性能明显提高。特征对齐方法证明了将源域与目标域样本配对的样本扩增方式的有效性,FADA[70]借鉴了该思想,但是FADA同时利用了生成对抗网络,通过混淆判别器的方式,使得特征提取网络降低对源域与目标域的域差异,进而适应目标域,提高在目标域的性能。
基于度量学习的小样本学习方法通常包含两个阶段,第1个阶段是如何设计合理的特征提取器,使得提取后的特征更利于后面的相似性度量操作;第2阶段如何选择合理的度量函数,使得这个度量函数可以很好地泛化到目标域。在未来的研究中,如何设计更好的特征提取器和如何设计更加合理的特征提取函数,仍然是值得研究的方向。
2.3 基于初始化的方法该类方法用“学习如何微调”来解决小样本学习问题。基于初始化的方法,通过在源域上学习网络模型或者优化器的初始化,使得模型可以在目标域上完成快速迭代并具有良好泛化的能力。常用的方法有模型未知元学习方式[71]、潜在嵌入优化[72]、记忆增广神经网络[73]和基于长短时记忆模型的元学习[74]等。其中潜在嵌入优化通过二阶优化或者隐表示优化方法,学习一个泛化能力好的网络参数初始化。记忆增广神经网络、基于长短时记忆模型的元学习分别利用基于长短期记忆网络的元学习器和基于外部记忆的加权优化机制来代替原来的随机梯度下降优化器,使得整个优化过程可以兼容小样本学习任务。
1) 模型未知元学习方式。该方法是一种模型未知的训练方式,它是第1个将元学习方法应用于小样本分类的工作。它利用前面所提的经典K-way-N-shot方法[75],首先在源域中组建一系列任务,每个任务的训练集只有少量样本,利用这个少量的样本所训练的模型去测试集上评估得出监督信号,利用监督信号去优化原始网络,使得模型学习到更加通用的,易于适配的特征。在这种过程中,上一个任务所优化得到的模型可以直接用于下一个任务的训练。通过多轮迭代后,这个模型就可以用于评估测试集。这种方法的优点在于,可以利用前面相似任务得出的初始化模型,来加速新任务的训练。同样在原来的任务中训练,采用二阶梯度的优化方法,不容易对原来的数据造成过拟合。模型未知元学习方式的缺点是,这类方法不太符合人的学习方式,人在进行小样本识别时候,不会像元学习那样组建一个个的相关任务。
2) 元优化器。元知识作为一种对各种任务通用的方法,不仅可以以模型的初始化机制体现出来,还可以以元优化器的方式体现出来。元优化器是指优化器里面的部分参数是可学习的,可以随着评估集的数据,得到最终的监督信号,从而优化这些优化器的参数。基于长短时记忆模型的元学习方法采用这种思路,用长短记忆网络来,按照时序学习一系列任务,最终在评估集上获取监督信号。值得一提的是,最终的监督损失对于元学习器而言,都是可以产生一阶梯度的,可以快速收敛。这样新学习的优化器,就可以在新的任务上取代传统的随机梯度下降,或者Adam优化方法[76],帮助模型在小任务上取得更好的性能。这种元学习思路,比较符合人类学习的方式,具有学会学习的能力。
3) 外部记忆增广网络。基于元学习的方法利用以往的经验来学习,研究者在此基础上探究是否可以通过在神经网络上添加记忆网络来实现学习经验的保存。Santoro等[74]借鉴神经图灵机引入外部记忆模块,提出一种基于元学习的记忆增广神经网络使得模型能够对于少量的样本类别进行记忆增强,以此用于以后的预测。具体地,在每一个时间点将当前需要判别的样本以及上一个时间点的标签输入到模型,同时输出的内容为当前输入的预测结果。在元学习的每一段中,都会从数据集分布中采样一部分数据用于训练。实验结果表明,在使用了记忆增强之后,预测的效果有了很大的提升,也说明了在元学习中加入记忆机制是有效的。
基于初始化的方法在有监督学习算法的基础上,加入了一些特殊的训练机制,使得网络可以在源域上学习一些和类别无关的元知识,然后将这部分元知识迁移到目标域中,弥补目标域数据不足的问题。在未来的研究中如何设计更好的元学习机制和从理论上去证明元学习方法的合理性仍然是值得探索的方向。
3 小样本目标检测已有的小样本学习工作大多集中在小样本图像分类问题中,对于小样本学习问题在检测领域的应用,目前只有少数工作。目标检测作为计算机视觉的一个基础性任务,为许多图像处理的高层应用,例如实例分割[77]、人体关键点识别[78]、场景理解[79]、目标追踪等[80-83]方向提供了基础的支持。随着大规模数据集(MS COCO[84],Open Image[85])和成熟的检测框架(Faster RCNN[86]和YOLO[87])的提出,目标检测在一些应用问题,诸如车辆检测[88]、行人检测[89]等问题已经满足了工程应用的基本要求。但是很多应用场景中,均面临着标定数据缺失的难题。如何在少量样本、甚至没有样本的条件下实现目标检测,受到了越来越多工业界和学术界研究人员的重视。
小样本目标检测相比于小样本图像识别,具有更大的挑战性:首先,目标检测问题相比于图像分类任务,不仅需要识别出目标具体的类别,同时还需要确定目标在图像中的精确位置;其次,分类任务更加关注高层语义信息的抽取工作,检测任务除了需要完成高层特征的提取,还需要低层次的像素级别的信息来帮助实现目标的定位任务;另外,在目标检测任务中,为了区分前景和背景,我们在学习类别的语义表示时,同时定义了背景类的语义表示,而在小样本目标检测场景中由于目标域监督信息的不足,背景类的语义极易与背景产生语义混淆,特别是未见目标,大大地降低了目标域的召回率;最后,目标回归模块的特征参数很难从源域所训练的网络中获取,比起小样本图像识别,小样本目标检测更加难以利用先验知识来完成任务。下面对近两年出现的具有代表性的小样本目标检测成果进行阐释。
1) 基于度量学习的方法。RepMet[90]是目前唯一将度量学习用于小样本目标检测的工作。RepMet假设类别里每一个类的特征分布均满足多模态分布的,即每一个类别都有多个特征中心。通过把这种基于距离的损失函数和多模态分布假设,嵌入到经典的基于图像特征金字塔结构的RetinaNet模型,可以完成端对端的训练,从而获取源域类别的特征中心。在测试阶段,只需要把已有的少量目标域的图片,输入到特征提取器,就可以估计出目标域类别的聚类中心,从而获取到最终的目标域的分类器。实验证明,这种多模态分布的假设,不但对于小样本目标检测任务有一定的作用,对于之前的小样本识别任务,也是优于大多数其他基于度量的小样本识别算法。RepMet也是一种基于元学习的训练框架,该项工作也证明了将元学习的任务学习机制用于小样本检测也是可行的方案。
2) 基于正则化微调的方法。基于正则化微调的方法[91]是一种基于正则化微调的方法。在小样本学习领域,由于目标域类别的监督信息比较少,如果直接将源域的预训练好的模型,在目标域数据上微调,很容易造成模型的过拟合,严重影响目标检测模型的精度。基于正则化微调的方法将两种正则化约束用于微调的过程,来防止模型的过拟合,从提高模型的泛化性。首先,基于正则化微调的方法引入了知识迁移约束,为了充分地利用源域的知识,该方法将源域的分类头部得出的信息用于正则化目标域的分类头部信息。通过拉近两种输出之间的距离,基于正则化微调的方法可以将源域里对当前任务相关的特征迁移到目标域类别中。此外,基于正则化微调的方法引入了背景抑制约束项,在训练的过程中,通过将特征图像中和目标无关的激活区域的值降低,来降低语义混淆对精度的影响,从而使得微调过程中可以学习到更多和目标类别相关的知识。
3) 基于特征匹配的方法。匹配网络[92]将目标跟踪框架和目标检测框架相结合,将目标检测问题转化为一个目标追踪问题。匹配网络将改造了传统的Faster RCNN,它将图像的特征利用全局池化的方式,在区域提取网络的特征图和区域池化模块上进行了融合,使得网络可以检测出和给定图片一样类别的区域。这种方法只需要直接在已有的Faster RCNN上加入特征融合模块,修改网络的监督信息,就可以搭建完整个训练框架。通过在源域上实现图像检索所获取的知识,可以很自然地从源域迁移到目标域,从而完成目标域的小样本目标检测任务。
Hsieh[93]和Fan[94]等在匹配网络的基础上,对网络结构进行了改进:一方面更好地融合图像特征,使得产生的候选框和任务相关;另外通过设计更好的匹配网络模块,从而更加全面地度量图像特征和候选框特征之间的相似度。Hsieh[93]利用了非局部操作和注意力机制来融合两部分图像的特征,并采用了最大边缘距离损失函数来监督匹配网络,从而更加有效地筛选候选框。Fan[94]也在特征提取模块加入了注意力机制来做特征融合,同时在匹配网络模块采用了3种不同的特征组合方式,来融合图像和候选框的高层特征,使得匹配网络可以从多个角度去考虑特征的相似度。
4) 零样本目标检测。零样本目标检测和零样本目标识别思路类似,旨在利用源域和目标域类别的语义信息完成知识的迁移。目前已有的零样本目标检测工作共同的思路,都是将原来的零样本识别的思路迁移到经典的目标检测框架中,通过将语义信息嵌入到最终分类头和回归头中,使得网络可以学习到视觉特征到语义空间的映射。其中,Rahman等[95]提出了第1种零样本目标检测的方法,该方法将类别的语义矩阵嵌入到Faster RCNN的分类头和回归头,使得目标检测框架可以在源域训练,训练得到的模型直接应用于未见类别的识别。该方法将未见类的语义同时加入了源域的训练过程,利用语义之间相似性,设计了语义对齐损失。为了解决背景类和未见类之间的语义混淆,Zhu等[96]设计提供了2种解决思路:一种是利用固定的语义向量,另外一种是利用除了未见类之外的更多类别来表示背景类。通过引入更多类别的语义向量获取的背景类的表示,使得背景类对目标域的前景类更加具有鉴别性。此外,文献[96]引入了隐空间决策方式,通过将语义空间映射到隐空间,间接地降低了原始语义空间的噪声。
其他的一些零样本目标检测工作思想类似:Bansal等[97]将语义信息嵌入到YOLO V2框架,提升了网络的运行效率[91]。Demirel等[98]将未见类的语义信息,表示为源域类别的凸组合,将未见类的图片通过网络获取的分类信息,直接预测出未见类的类别。Rahman等[99]将Focal loss引入到零样本检测问题中,解决了困难实例的训练难题,同时考虑类别之间样本数目的不平衡性,引入了极点约束机制。为了解决原始空间的噪声,该方法也引入了大量的相关类别来学习更好的语义空间。
截止目前,小样本目标检测仍然远未达到工业级应用的成熟度。本文认为,在未来的研究中,有3个方向值得去探索:首先是构建合理且大规模的基准数据集,为各类算法建立统一的测试平台;其次,探索更加合理的对比网络框架,匹配网络是目前解决小样本检测的一个合理方案,后续在网络结构和训练机制方面还有很大潜力值得探索;另外,将小样本检测问题和弱监督学习问题结合,合理利用额外信息来提升检测模型的性能,也是一个很好的研究方向。
4 展望小样本学习通过结合先验知识和少量的监督信息,使得模型能够在这类任务中取得较好的效果。下面从多域信息融合、元学习理论、表示网络优化和应用前景4个方面对小样学习的未来发展进行展望。
4.1 多域信息融合已有的小样本识别问题,往往关注于单一的模态,比如说图像、文本或者视频问题。但是在许多问题场景里,虽然我们只利用了少量的单模态监督信息,忽略了存在的大量容易获取的其他模态的信息。一个最简单的例子是:对于某几类动物,只有少量视觉模态的信息,但是在文本领域,有大量描述这些类别的语料信息,比如说一些网站对这些类的介绍,又或者是某些文章中的记载。因此,目标的多模态信息可以提供更多的先验知识,来弥补图像数据中监督信息的不足。零样本学习作为一种特殊的多模态学习问题,其中的多模态映射思路,对于小样本学习问题都具有启发意义。可以将多模态信息与现有的基于初始化的方法、基于度量学习的方法、以及基于数据增强的方法进行结合,来提高已有方法的性能。
4.2 元学习理论近期研究工作表明,采用无标定的样本、多任务学习、生成模型、参数微调以及元学习机制可以有效地解决目标域样本不足的问题。但是关于方法的理论分析工作却很少。少量研究工作表明,如果使用合理的深度模型,基于初始化的元学习机制可以让模型的最优化映射趋近于真实分布的映射。大量的已有工作仍然缺少收敛性证明,大多还只是启发式的方法。对于利用先验知识和少量样本,如何从理论分析上确保真正趋近于真实分布,仍然有待研究。特别地,对于元学习机制,最优化参数目标只是各个任务的期望最优解,这个优化目标和最终的经验风险最优之间的关系也是个值得研究的问题。所以,关于已有的小样本学习算法,特别是元学习方法的收敛问题,仍然需要后续工作加以证明。
4.3 表示网络优化根据基于深度学习的目标检测优化途径,一个好的表示网络能给最终的检测性能带来较大的提升,比如使用残差网络。因此,设计合理、有效的表示网络,是未来值得研究的方向。目前,深度神经网络的自动搜索问题给监督学习问题,包括图像分类、目标检测、图像分割都提供了很好的骨干网络结构,如何利用自动网络结构搜索,来帮助小样本学习模型减少函数优化空间、降低学习难度将会是一个很有意义的问题。
4.4 应用前景现有的小样本学习研究工作大多数集中在图像分类、字符识别等方向。其他在监督学习场景中比较成熟的技术,也迫切需要小样本学习理论的支撑和应用,包括目标检测、实例分割、语义分割、目标追踪、图像检索、手势识别、视频目标检测等在小样本条件下的应用,也是值得探索的问题。除了视觉任务,其他的一些领域的小样本学习问题也是值得探索的。比如在自然语言处理问题中的机器翻译和语言模型、推荐体统中的冷启动问题、医学领域的罕见药物的发现问题、机器人学里面的视觉导航问题、自动控制问题、机器人模仿学习等方向,都是小样本学习的未来的重要应用场景。
5 结论小样本学习可以利用先验知识结合少量样本,来完成目标域的任务。从某种意义上可以认为,小样本学习是机器学习智能化水平的量尺,直接表明了机器学习模型接近人脑的程度。本文对小样本学习的理论、算法、面临的挑战进行了详细的论述,并重点对小样本学习分类问题、小样本检测和零样本检测问题的典型研究工作进行了阐述和分析。最后从理论和应用前景对小样本学习未来的研究进行了展望,希望对以目标检测、识别为代表的智能感知技术研究提供参考和帮助。
[1] | DENG J, DONG W, SOCHER R, et al. ImageNet: A large-scale hierarchical image database[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2009. |
[2] | KRIZHEVSKY A, SUTSKEVER I, HINTON G. ImageNet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems, 2012. |
[3] | HE K, ZHANG X, REN S. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2016. |
[4] | LONG J, EVAN S, TREVOR D. Fully convolutional networks for semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2015. |
[5] | REN S, HE K, GIRSHICK R, et al. Faster R-CNN:Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2015, 39(6): 1137-1149. |
Click to display the text | |
[6] | HOU X, ZHANG L. Saliency detection: A spectral residual approach[C]//IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2007. |
[7] | WANG Y, GIRSHICK R, HEBERT M, et al. Low-shot learning from imaginary data[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2018. |
[8] | LAMPERT C H, NICKISCH H, HARMELING S. Attribute-based classification for zero-shot visual object categorization[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 36(3): 453-465. |
Click to display the text | |
[9] | SEBASTIAN T, PRATT L. Learning to learn[M]. Norwell: Springer Science & Business Media, 2012. |
[10] | SCHAAL S. Is imitation learning the route to humanoid robots[J]. Trends in Cognitive Sciences, 1999, 3(6): 233. |
Click to display the text | |
[11] | GARCIA V, BRUNA J. Few-shot learning with graph neural networks[EB/OL]. (2018-02-20)[2019-11-20]. https: //arxiv.org/abs/1711.04043v1. |
[12] | DUAN Y, ANDRYCHOWICZ M, STADIE B, et al. One-shot imitation learning[C]//Advances in Neural Information Processing Systems, 2017: 1087-1098. |
[13] | ORESHKIN B, LÓPEZ P R, LACOSTE A. Tadam: Task dependent adaptive metric for Improved mproved few-shot learning[C]//Advances in Neural Information Processing Systems, 2018: 721-731. |
[14] | REN M, TRIANTAFILLOU E, RAVI S, et al. Meta-learning for semi-supervised few-shot classification[EB/OL]. (2018-02-02)[2019-11-20]. https://arXivpreprintarXiv:1803.00676. |
[15] | ROMERA-PAREDES B, TORR P. An embarrassingly simple approach to zero-shot learning[C]//International Conference on Machine Learning, 2015: 2152-2161. |
[16] | CHANGPINYO S, CHAO W L, GONG B, et al. Synthesized classifiers for zero-shot learning[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2016: 5327-5336. |
[17] | KODIROV E, XIANG T, FU Z, et al. Unsupervised domain adaptation for zero-shot learning[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2015: 2452-2460. |
[18] | ZHANG Z, SALIGRAMA V. Zero-shot learning via joint latent similarity embedding[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2016: 6034-6042. |
[19] | PAN S J, YANG Q. A survey on transfer learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2009, 22(10): 1345-1359. |
Click to display the text | |
[20] | TURK M A, PENTLAND A P. Face recognition using eigenfaces[C]//Proceedings of 1991 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 1991: 586-591. |
[21] | KINGMA D P, MOHAMED S, REZENDE D J, et al. Semi-supervised learning with deep generative models[C]//Advances in Neural Information Processing Systems, 2014: 3581-3589. |
[22] | BUCCINO G, VOGT S, RITZL A, et al. Neural circuits underlying imitation learning of hand actions:An event-related fMRI study[J]. Neuron, 2004, 42(2): 323-334. |
Click to display the text | |
[23] | SMEULDERS A W M, WORRING M, SANTINI S, et al. Content-based image retrieval at the end of the early years[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2000(12): 1349-1380. |
Click to display the text | |
[24] | BLACKMAN S. Multiple-target tracking with radar applications[M]. Dedham: Artech House, Inc., 1986. |
[25] | FREEMAN W T, ROTH M. Orientation histograms for hand gesture recognition[C]//International Workshop on Automatic Face and Gesture Recognition, 1995: 296-301. |
[26] | XU K, BA J, KIROS R, et al. Show, attend and tell: Neural image caption generation with visual attention[C]//International Conference on Machine Learning, 2015: 2048-2057. |
[27] | ANTOL S, AGRAWAL A, LU J, et al. Vqa: Visual question answering[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2015: 2425-2433. |
[28] | MEDIONI G, COHEN I, BRÉMOND F, et al. Event detection and analysis from video streams[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, 23(8): 873-889. |
Click to display the text | |
[29] | BENGIO Y, DUCHARME R, VINCENT P, et al. A neural probabilistic language model[J]. Journal of Machine Learning Research, 2003, 3(2): 1137-1155. |
Click to display the text | |
[30] | ZOPH B, LE Q V. Neural architecture search with reinforcement learning[EB/OL]. (2016-11-5)[2019-11-20]. https: //arxiv.xilesou.top/pdf/1611.01578. |
[31] | LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2017: 2980-2988. |
[32] | WANG Y, YAO Q. Few-shot learning: A survey[EB/OL]. (2019-04-10)[2019-03-13]. https://arxiv.xilesou.top/pdf/1904.05046. |
[33] | RUSSAKOVSKY O, LI F F. Attribute learning in large-scale datasets[C]//European Conference on Computer Vision. Heidelberg: Springer, 2010: 1-14. |
[34] | VILALTA R, DRISSI Y. A perspective view and survey of meta-learning[J]. Artificial Intelligence Review, 2002, 18(2): 77-95. |
Click to display the text | |
[35] | KODIROV E, XIANG T, FU Z, et al. Unsupervised domain adaptation for zero-shot learning[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2015: 2452-2460. |
[36] | ZHU X, GOLDBERG A B. Introduction to semi-supervised learning[J]. Synthesis Lectures on Artificial Intelligence and Machine Learning, 2009, 3(1): 1-130. |
Click to display the text | |
[37] | BARLOW H B. Unsupervised learning[J]. Neural Computation, 1989, 1(3): 295-311. |
Click to display the text | |
[38] | ROSENBERG C, HEBERT M, SCHNEIDERMAN H. Semi-supervised self-training of object detection models[C]//2005 Seventh IEEE Workshops on Applications of Computer Vision. Piscataway: IEEE Press, 2005. |
[39] | ZHOU Z H. A brief introduction to weakly supervised learning[J]. National Science Review, 2018, 5(1): 44-53. |
Click to display the text | |
[40] | TORREY L, SHAVLIK J. Transfer learning[M]. Hershey: IGI Global, 2009: 242-264. |
[41] | BROWN A L, CAMPIONE J C, DAY J D. Learning to learn:On training students to learn from texts[J]. Educational Researcher, 1981, 10(2): 14-21. |
Click to display the text | |
[42] | HOCHREITER S, YOUNGER A S, CONWELL P R. Learning to learn using gradient descent[C]//International Conference on Artificial Neural Networks. Heidelberg: Springer, 2001: 87-94. |
[43] | PALATUCCI M, POMERLEAU D, HINTON G E, et al. Zero-shot learning with semantic output codes[C]//Advances in Neural Information Processing Systems, 2009: 1410-1418. |
[44] | ZHANG Z, SALIGRAMA V. Zero-shot learning via semantic similarity embedding[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2015: 4166-4174. |
[45] | CHANGPINYO S, CHAO W L, GONG B, et al. Synthesized classifiers for zero-shot learning[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2016: 5327-5336. |
[46] | KODIROV E, XIANG T, GONG S. Semantic autoencoder for zero-shot learning[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2017: 3174-3183. |
[47] | ZHANG T, JOHNSON D. A robust risk minimization based named entity recognition system[C]//Proceedings of the Seventh Conference on Natural Language Learning at HLT-NAACL 2003-Volume 4, 2003: 204-207. |
[48] | CHEN W Y, LIU Y C, KIRA Z, et al. A closer look at few-shot classification[EB/OL]. (2019-04-08)[2019-01-12]. https://arxiv.xilesou.top/pdf/1904.04232. |
[49] | VAN DYK D A, MENG X L. The art of data augmentation[J]. Journal of Computational and Graphical Statistics, 2001, 10(1): 1-50. |
Click to display the text | |
[50] | HARIHARAN B, GIRSHICK R. Low-shot visual recognition by shrinking and hallucinating features[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2017: 3018-3027. |
[51] | CHEN Z, FU Y, ZHANG Y, et al. Multi-level semantic feature augmentation for one-shot learning[J]. IEEE Transactions on Image Processing, 2019, 28(9): 4594-4605. |
Click to display the text | |
[52] | HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504-507. |
Click to display the text | |
[53] | GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//Advances in Neural Information Processing Systems, 2014: 2672-2680. |
[54] | PERARNAU G, VAN DE WEIJER J, RADUCANU B, et al. Invertible conditional gans for image editing[EB/OL].[2016-11-19]. https: //arxiv.xilesou.top/pdf/1611.06355. |
[55] | CHU C, ZHMOGINOV A, SANDLER M. Cyclegan, a master of steganography[EB/OL].(2017-12-08)[2017-12-16]. https://arxiv.xilesou.top/pdf/1712.02950. |
[56] | HOSSEINI-ASL E, ZHOU Y, XIONG C, et al. Augmented cyclic adversarial learning for low resource domain adaptation[EB/OL]. (2018-07-01)[2019-01-23]. https://arxiv.xilesou.top/pdf/1807.00374. |
[57] | JUANG B H, RABINER L R. Hidden Markov models for speech recognition[J]. Technometrics, 1991, 33(3): 251-272. |
Click to display the text | |
[58] | CHEN Z, FU Y, CHEN K, et al. Image block augmentation for one-shot learning[C]//Proceedings of the AAAI Conference on Artificial Intelligence, 2019: 3379-3386. |
[59] | CHEN Z, FU Y, WANG Y X, et al. Image deformation meta-networks for one-shot learning[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2019: 8680-8689. |
[60] | VINYALS O, BLUNDELL C, LILLICRAP T, et al. Matching networks for one shot learning[C]//Advances in Neural Information Processing Systems, 2016: 3630-3638. |
[61] | SNELL J, SWERSKY K, ZEMEL R. Prototypical networks for few-shot learning[C]//Advances in Neural Information Processing Systems, 2017: 4077-4087. |
[62] | SUNG F, YANG Y, ZHANG L, et al. Learning to compare: Relation network for few-shot learning[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2018: 1199-1208. |
[63] | BERTINETTO L, HENRIQUES J F, TORR P H S, et al. Meta-learning with differentiable closed-form solvers[EB/OL]. (2018-05-21)[2019-12-20]. https://arxiv.xilesou.top/pdf/1805.08136. |
[64] | GARCIA V, BRUNA J. Few-shot learning with graph neural networks[EB/OL]. (2017-11-10)[2019-12-20]. https://arxiv.xilesou.top/pdf/1711.04043. |
[65] | HUANG Z, XU W, YU K. Bidirectional LSTM-CRF models for sequence tagging[EB/OL]. (2015-08-09)[2019-12-20]. https://arxiv.xilesou.top/pdf/1508.01991. |
[66] | VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Advances in Neural Information Processing Systems, 2017: 5998-6008. |
[67] | QI H, BROWN M, LOWE D G. Low-shot learning with imprinted weights[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2018: 5822-5830. |
[68] | GIDARIS S, KOMODAKIS N. Dynamic few-shot visual learning without forgetting[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2018: 4367-4375. |
[69] | MOTIIAN S, PICCIRILLI M, ADJEROH D A, et al. Unified deep supervised domain adaptation and generalization[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2017: 5715-5725. |
[70] | MOTIIAN S, JONES Q, IRANMANESH S, et al. Few-shot adversarial domain adaptation[C]//Advances in Neural Information Processing Systems, 2017: 6670-6680. |
[71] | FINN C, ABBEEL P, LEVINE S. Model-agnostic meta-learning for fast adaptation of deep networks[C]//Proceedings of the 34th International Conference on Machine Learning, 2017: 1126-1135. |
[72] | RUSU A A, RAO D, SYGNOWSKI J, et al. Meta-learning with latent embedding optimization[EB/OL]. (2018-07-16)[2019-12-20]. https://arxiv.xilesou.top/pdf/1807.05960. |
[73] | RAVI S, LAROCHELLE H. Optimization as a model for few-shot learning[C]//International Conference on Learning Representations (ICLR), 2017. |
[74] | SANTORO A, BARTUNOV S, BOTVINICK M, et al. Meta-learning with memory-augmented neural networks[C]//International Conference on Machine Learning, 2016: 1842-1850. |
[75] | HILLIARD N, PHILLIPS L, HOWLAND S, et al. Few-shot learning with metric-agnostic conditional embeddings[EB/OL]. (2018-02-12)[2019-12-20]. https://arxiv.xilesou.top/pdf/1802.04376. |
[76] | KINGMA D P, BA J. Adam: A method for stochastic optimization[EB/OL]. (2014-12-22)[2019-12-20]. https: //arxiv.xilesou.top/pdf/1412.6980. |
[77] | DAI J, HE K, SUN J. Instance-aware semantic segmentation via multi-task network cascades[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2016: 3150-3158. |
[78] | WEI S E, RAMAKRISHNA V, KANADE T, et al. Convolutional pose machines[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2016: 4724-4732. |
[79] | ANDERSON P, HE X, BUEHLER C. Bottom-up and top-down attention for image captioning and visual question answering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2016: 6077-6086. |
[80] |
刘芳, 王洪娟, 黄光伟, 等. 基于自适应深度网络的无人机目标跟踪算法[J]. 航空学报, 2019, 40(3): 322332. LIU F, WANG H J, HUANG G W, et al. UAV target tracking algorithm based on adaptive depth network[J]. Acta Aeronautica et Astronautica Sinica, 2019, 40(3): 322332. (in Chinese) |
Cited By in Cnki | Click to display the text | |
[81] |
张菁, 何友, 彭应宁, 等. 基于神经网络和人工势场的协同博弈路径规划[J]. 航空学报, 2019, 40(3): 322493. ZHANG J, HE Y, PENG Y N, et al. Neural network and artificial potential field based cooperative and adversarially path planning[J]. Acta Aeronautica et Astronautica Sinica, 2019, 40(3): 322493. (in Chinese) |
Cited By in Cnki | Click to display the text | |
[82] |
石叶楠, 郑国磊. 三种用于加工特征识别的神经网络方法综述[J]. 航空学报, 2019, 40(9): 022840. SHI Y N, ZHENG G L. A review of three neural network methods for manufacturing feature recognition[J]. Acta Aeronautica et Astronautica Sinica, 2019, 40(9): 022840. (in Chinese) |
Cited By in Cnki | Click to display the text | |
[83] |
王华夏, 程咏梅, 刘楠. 面向山地区域光照变化下的鲁棒景象匹配方法[J]. 航空学报, 2017, 38(10): 321101. WANG H X, CHENG Y M, LIU N. A robust scene matching method for mountainous region with illumination variation[J]. Acta Aeronautica et Astronautica Sinica, 2017, 38(10): 321101. (in Chinese) |
Cited By in Cnki | Click to display the text | |
[84] | LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft coco: Common objects in context[C]//European Conference on Computer Vision, 2014: 740-755. |
[85] | KUZNETSOVA A, ROM H, ALLDRIN N, et al. The open images dataset v4: Unified image classification, object detection, and visual relationship detection at scale[EB/OL]. (2018-11-02)[2019-12-20]. https://arxiv.xilesou.top/pdf/1811.00982. |
[86] | REN S, HE K, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[C]//Advances in Neural Information Processing Systems, 2015: 91-99. |
[87] | REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: Unified, real-time object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2016: 779-788. |
[88] | SUN Z, BEBIS G, MILLER R. On-road vehicle detection:A review[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2006(5): 694-711. |
Click to display the text | |
[89] | DOLLÁR P, WOJEK C, SCHIELE B, et al. Pedestrian detection: A benchmark[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2009: 304-311. |
[90] | SCHWARTZ E, KARLINSKY L, SHTOK J, et al. RepMet: Representative-based metric learning for classification and one-shot object detection[EB/OL]. (2018-06-12)[2019-12-20]. https://arXiv.preprintarXiv:1806.04728. |
[91] | CHEN H, WANG Y, WANG G, et al. A low-shot transfer detector for object detection[C]//Thirty-Second AAAI Conference on Artificial Intelligence, 2018. |
[92] | ZHANG T, ZHANG Y, SUN X, et al. Comparison network for one-shot conditional object detection[EB/OL]. (2019-4-4)[2019-12-20]. https://arxiv.xilesou.top/pdf/1904.02317. |
[93] | HSIEH T I, LO Y C, CHEN H T, et al. One-shot object detection with co-attention and co-excitation[C]//Advances in Neural Information Processing Systems, 2019: 2721-2730. |
[94] | FAN Q, ZHUO W, TAI Y W. Few-shot object detection with attention-RPN and multi-relation detector[EB/OL] (2019-08-06)[2019-12-20]. https://arxiv.org/abs/1908.01998. |
[95] | RAHMAN S, KHAN S, PORIKLI F. Zero-shot object detection: Learning to simultaneously recognize and localize novel concepts[C]//Asian Conference on Computer Vision, 2018: 547-563. |
[96] | ZHU P, WANG H, SALIGRAMA V. Zero shot detection[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2019, 30(4): 998-1010. |
Click to display the text | |
[97] | BANSAL A, SIKKA K, SHARMA G, et al. Zero-shot object detection[C]//Proceedings of the European Conference on Computer Vision (ECCV), 2018: 384-400. |
[98] | DEMIREL B, CINBIS R G, IKIZLER-CINBIS N. Zero-shot object detection by hybrid region embedding[EB/OL]. (2018-5-16)[2019-12-20]. https://arxiv.xilesou.top/pdf/1805.06157. |
[99] | RAHMAN S, KHAN S, BARNES N. Polarity loss for zero-shot object detection[EB/OL]. (2018-11-22)[2019-12-20]. https://arxiv.xilesou.top/pdf/1811.08982. |