Context-Aware Zero-Shot Recognition 论文翻译

摘要

我们在上下文中提出了Zero-Shot学习,一种物体识别和检测的新颖问题设置。与传统的零镜头学习方法不同,传统的零镜头学习方法仅仅是通过将知识从语义相似的已见范畴中转移出来,用来推断未见范畴,我们的目的是利用先验的对象间关系来理解被已知对象包围的图像中新对象的身份。具体来说,我们利用一个图像中所有对对象之间的视觉上下文和几何关系,并捕获有用的信息来推断不可见的类别。我们使用条件随机场(CRF)将上下文感知的Zero-Shot学习框架无缝地集成到传统的Zero-Shot学习技术中。该算法对Zero-Shot区域分类和Zero-Shot检测任务都进行了评估。在视觉基因组数据集上的结果表明,与传统方法相比,我们的模型在附加视觉上下文的情况下显著提高了性能。代码可在链接: github

1 介绍

近年来,随着深度卷积神经网络的发展,监督对象识别取得了显著的性能提高。具有全面注释的大型数据集(如COCO)有助于深度神经网络在预定义的类集中学习对象的语义知识。然而,为世界上的每个类都获得丰富的注释是不切实际的,而开发不需要额外注释就可以泛化到新类别的模型是很重要的。另一方面,人类有能力利用语言描述和对象关系等外部知识来理解看不见的对象类别。在最近的文献中,在不可见类别中推断物体的问题被称为Zero-Shot物体识别。
在缺乏直接监督的情况下,常常利用语义嵌入、知识图、属性等其他信息资源,通过所见范畴的知识转移来推断新对象类别的出现。这些方法背后的假设是,如果一个看不见的类别在语义上接近一个看得到的类别,那么这两个类别的对象在视觉上应该是相似的。
除了利用视觉相似性来推断新的对象类别外,人类还经常捕捉场景上下文中对象的信息。例如,如果我们不知道图1中所示的红色圆盘状对象的类标签,即使在有限的视觉线索下,也有可能通过识别附近的另外两个物体来猜测它的类别,一个人和一只狗,以及利用关于人和狗可能一起玩的物体的先验知识。假设一个飞盘是这样一种物体,我们可以推断出这个物体是飞盘,即使之前没有看到它。在这个场景中,多个对象之间的交互,例如…人,狗和飞盘,提供了额外的线索,以认识新的物体-飞盘在这种情况下;注意,关于物体关系的外部知识(人和狗可以玩飞盘)是看不见的物体识别所必需的。
基于这种直觉,我们提出了一种Zero-Shot图像识别算法。与传统的独立推断每一个看不见的物体的方法不同,我们的目标是在视觉环境中识别新的物体,即,通过利用图像中显示的对象之间的关系。在我们的框架中,关系信息由关系知识图定义,构造一个知识图比在图像上收集图片上密集的注释更直观。在该框架中,利用条件随机场(CRF)对局部上下文信息和关系图先验进行联合推理。我们的算法是在Visual Genome dataset上进行评估的,它提供了大量的对象类别和不同的对象关系;本文提出的基于上下文知识表示的模型在应用于各种现有的Zero-Shot识别方法时具有明显的优势。我们相信,本课题的提出将为Zero-Shot识别领域的研究带来更多的乐趣。
图一
这项工作的主要贡献如下:

  • 在计算机视觉中,我们引入了一个新的Zero-Shot学习框架,称为背景下的Zero-Shot识别,通过与同一图像中显示的其他对象的关系来标识不可见的对象的类别。
  • 提出了一种基于深度神经网络和CRF(条件随机场)的模型,该模型利用对象关系知识来识别未知的对象类别。
  • 与现有方法相比,该算法在忽略视觉上下文的各种模型和设置上都有明显的改进。
    本文其余部分的关系如下。第二部分回顾现有的Zero-Shot视觉识别学习技术。第3节和第4节分别介绍了我们的主要算法及其实现细节。实验结果在第5节中进行了讨论,我们在第6节中总结了本文。

2 相关的工作

本节介绍了之前与我们工作相关的工作,包括Zero-Shot学习、上下文感知识别和知识图。

2.1 Zero-Shot学习

为Zero-Shot探索了广泛的外部知识。早期的Zero-Shot分类方法采用对象属性作为代理,学习不可见类别的可视化表示。语义嵌入是从大型文本语料库中学习的,然后用于架起可见和不可见类别之间的桥梁。采用属性组合和词嵌入相结合的方法,通过综合基分类器的线性组合来学习不可见类别的分类器,并在后面加入文本描述来预测分类器权重。最近的一项工作利用Graph Convolutional Network (GCN) over WordNet knowledge Graph将分类器权值从可见的类别传播到不可见的类别。
除了这些知识资源外,我们还提出利用视觉环境中的对象关系知识来推断不可见的类别。据我们所知,这是第一个考虑成对对象关系的Zero-Shot视觉识别工作。该模块可以方便地集成到现有的Zero-Shot图像分类模型中,提高了性能。
除了Zero-Shot识别,还研究Zero-Shot目标检测(zero-shot object detection, ZSD)任务,该任务的目标是对训练中从未见过的类别的个体对象进行定位。在这些方法中,[46]侧重于为不可见的类别生成对象建议,而[1]则训练一个后台感知检测器,以减轻“后台”类与不可见类之间的冲突。此外,[34]提出了一种新的损失函数来降低语义特征中的噪声。虽然这些方法共同处理对象分类和定位,但都没有尝试在场景中包含上下文信息。

2.2 环境敏感检测

在深度学习时代之前,上下文信息已经被用来辅助对象检测。像更快的R-CNN这样的深度学习方法允许区域特性通过大的接受域来超越它自己的边界框。对象关系和可视化上下文也被用来改进对象检测。例如,[44,27]表明场景图生成与目标检测的联合学习提高了检测结果,而[6,19]则在目标提案之间进行消息传递来细化检测结果。利用常识知识图对弱监督对象进行检测。对于没有本地化标注的类别,使用常识知识图来推断它们的位置,然后将其作为训练数据。
虽然上下文感知方法用于目标检测已经有一段时间的研究,但这些方法大多是针对全监督设置而设计的,不能直接应用于Zero-Shot环境。例如使用对象对的出现频率,这对于不可见的类别不可用。[44]使用所有对象类别的密集注释的场景图来提高检测精度。本文探讨了将上下文感知思想移植到Zero-Shot设置中。

2.3 知识图谱

知识图谱被应用于各种视觉任务中,包括图像分类、Zero-Shot学习、视觉推理、视觉导航。基于图的神经网络经常在知识图上传播信息[30,25,42,5]。在[30,5,45]之后,我们用类似的方法构建了我们方法中使用的关系知识图。

3 上下文感知zero-shot识别

3.1 问题阐述

现有的Zero-Shot识别技术主要是对物体进行独立分类,没有考虑潜在的交互作用。为了便于零镜头识别的上下文感知推理,我们建议对图像中的所有对象实例(包括可见和不可见对象)进行分类。我们首先假设给出了ground-truth包围框注释,并建议识别不可见类中的对象。在此之后,我们还讨论了在测试时ground-truth边界框不可用时的Zero-Shot目标检测。
我们的模型接受一个image I 和一组边界框(region)将{Bi}作为其输入,并从标签集C中为每个区域输出一个类标签ci。在Zero-Shot识别设置下,标签集C分为两个子集,S表示可见类别,U表示不可见类别,其中两个集合满足S ∪U = C, S ∩U = Φ 。S中的对象标签在训练时可用,U中的对象标签则不可用。该模型需要对测试中可见和不可见类别的区域进行分类。
现有的一些Zero-Shot识别方法利用知识图谱将学习从可见类别转移到不可见类别,通过知识图谱中相关可见类别的线索来识别不可见类别中的对象。知识图中的边缘通常表示视觉相似性或层次结构。在我们的公式中,关系知识图的边以<subject, predicate, object>的形式表示有序的成对关系,表示图像中一对对象之间可能存在的交互作用。
有向边表示元组<subject, predicate, object>给出的关系中的特定谓词(关系)。对于同一对范畴,我们可能有多个关系;换句话说,可以在一对有序的类别上定义多个关系。如下多个关系,在这里插入图片描述关系图由G = {V,ε}定义;其中V表示一组类,在这里插入图片描述是一组有向边,表示主题类m和对象类n的所有对之间的关系。请注意,Kmn是有序类对之间所有可能的谓词的数量。

3.2 我们的框架

我们的框架如图2所示。从具有本地化对象的图像中,我们首先从单个对象和有序对象对中提取特征。然后,我们将实例级的Zero-Shot推理模块应用于单个对象的特征,并得到对象在所有对象类别上的概率分布。在统一的CRF模型中,个体类的似然性被用作一元势。关系推理模块以成对特征为输入,利用关系图计算相应的成对势。
特别的,设Bi和ci (i = 1,…N)是一个图像区域和一个图像中N个对象的类赋值。
我们的CRF推理模型由
在这里插入图片描述
一元的潜在θ(ci|Bi)来自实例等级的 zero-shot推理模块和成对的潜在的 Φ(ci,cj|Bi,Bj)由关系推理模块得到。γ一种平衡一元势和成对势的权重参数。
最终的预测由式(1)给出的CRF模型上的MAP推理生成,我们称整个过程为上下文感知的Zero-Shot推理。类似的技术可以在上下文感知的对象检测技术中找到。然而,我们声称我们的算法有足够的创新力,因为我们引入了一个新的框架的Zero-Shot学习与上下文和设计的一元和成对的潜力专门在CRF的Zero-Shot设置。我们以后使用θi(·)和Φij(·)的缩写θ(·jBi)和Φ(·jBi;Bj),分别。接下来,我们将详细讨论CRF中的每个组件。
在这里插入图片描述

3.2.1 实例级别Zero-Shot推理

我们使用修改后的快速R-CNN框架来从单个对象中提取特征。输入图像和边界框通过卷积层和RoiAlign层组成的网络传递。网络为每个区域输出一个区域特征 在这里插入图片描述,并被进一步转发到一个完全连接的层,从而产生每个类在这里插入图片描述的概率,这里的在这里插入图片描述是一个权重矩阵。然后给出CRF的一元势:
在这里插入图片描述
虽然在全监督设置下学习包括W在内的网络参数很简单,但我们只能针对所看到的类别训练模型并得到在这里插入图片描述。为了处理不可见类别对象的分类,我们还需要对Wu进行估计,构造全参数矩阵在这里插入图片描述进行预测。有几种现有的方法从外部知识来估计不可见类别的参数。我们将在第5节中评估上下文感知Zero-Shot学习算法在几种不可见类别的参数估计技术中的性能。

3.2.2 用关系图进行关推理

通过关系推理模块给出了CRF模型的成对势。它以一对区域作为输入,并产生一个关系势,在这里插入图片描述,表示两个边界框之间关系r^k的可能性。然后配对势CRF表示为
在这里插入图片描述

在这里插入图片描述是一个指示函数是否为元组在这里插入图片描述存在于关系图中。直观地说,当标签之间可能的关系具有很大的可能性时,就会鼓励进行标签分配。
该关系推理模块利用一个嵌入函数和一个双层多层感知器,从一个几何配置特征估计成对的势
在这里插入图片描述
其中gij是基于[19]和t的Bi和Bj对应的两个对象的相对几何构型特征tη(·)嵌入其输入到一个高维空间通过不同波长余弦和正弦函数的计算。在形式上,平移不变和尺度不变的特征gij由在这里插入图片描述给出,这里的(xi; yi; wi; hi)表示Bi的位置和大小。
为了训练式(4)中的MLP,我们设计了一个基于伪似然的损失函数,伪似然是给定其他区域的地面真值标签的区域的似然。最大化可能性增加了真标签对的潜力,同时抑制了错误的标签对。让ci作为Bi的ground-truth标签。培训目标是将以下损失函数最小化:
在这里插入图片描述
其中c\i
表示边界框的ground-truth标签,而不是Bi和在这里插入图片描述注意,在这里插入图片描述通过优化这个损失隐式地学习。在培训中没有使用关于关系的基本事实注释。

3.2.3 环境敏感Zero-Shot推理

最后一步是找到最大化的赋值P(c1,…cN)所定义的训练后的CRF通过方程(1)。
我们采用平均场推断进行有效逼近。一个分布Q(c1,…cN)用于近似P(c1,…cN)它由独立边值的乘积给出,它由
在这里插入图片描述
为了得到Q的一个很好的近似,我们最小化KL离散, KL(Q||P),同时约束Q(c1,…cN)和Qi(ci)是有效的分布。通过以下规则迭代更新Q得到最优Q:
在这里插入图片描述
这里的Zi是分割函数。
式(3)中定义的成对势涉及在这里插入图片描述矩阵。由于当N和|C|较大时,可能会产生巨大的计算开销,因此我们执行了加速剪枝。我们用Pc选择概率最大K的类别。这样,我们的方法可以看作是一个级联算法;实例级推理作为级联的第一层,上下文感知推理使用关系信息细化结果。

4 实现

本节讨论我们的Zero-Shot识别算法的更多面向实现的细节。

4.1 知识图谱

我们从可视化基因组数据集中提取关系知识图。我们首先选择20个最频繁的关系,收集数据集中(1)出现20次以上且(2)关系定义在R中的所有主观对象关系。这个过程的目的是得到一个具有公共关系的知识图。关系集R包括‘on’,
‘in’,‘holding’ ,‘wear’等。

4.2 模型

我们使用RoIAlign构建基于PyTorch掩码/Faster-RCNN实现的模型,同时由于给出了ground-truth对象区域,因此删除了区域建议网络和边界框回归分支。我们使用ResNet-50作为主干模型。每幅图像的大小重新调整至其较短的一面,有600像素。

4.3 训练

我们使用随机梯度下降动量优化所有模块。实例级的Zero-Shot推理和关系推理模块分别在两个阶段进行训练。在第一个阶段中,我们对实例级的zero-shot模块进行100K迭代的可视类别训练。该模型是根据预先训练的ImageNet分类模型进行微调的。初始化学习速率为0.005,经过60K和80K的迭代,学习速率降低了10倍。在对所看到的类别进行训练后,我们使用外部算法将知识转移到所看到的类别。在第二阶段,我们对关系推理模块进行训练,再进行60k次迭代,所有其他模块固定。为了便于训练,我们在实践中省略了式(7)中的一元势。初始化学习速率为0.005,迭代20K和40K后降低10倍。对于所有模块,权值衰减项的参数设置为0:0001,动量为0.9。批大小设置为8,在训练过程中固定批标准化层。

5 实现和结果

5.1 任务

我们主要针对Zero-Shot区域分类任务对系统进行了评价。我们提供ground-truth的位置,{Bi}为训练和测试。它使我们能够将识别错误与其他模块(包括建议生成)中的错误解耦,并清楚地诊断上下文在多大程度上有助于在对象级别上实现Zero-Shot识别。作为工作的自然延伸,我们还对Zero-Shot任务进行了评价。在这种情况下,我们在测试时输入从Edgeboxes中获得的区域建议,而不是ground-truth边界框。

5.2 数据集

我们在视觉基因组(VG)数据集上评估了我们的方法,该数据集包含108K张图像,平均有35个对象和21个对象之间的关系。VG包含两个图像子集,part-1包含大约60K的图像,part-2包含大约40K的图像。在我们的实验中,只考虑类别的子集,并且没有直接使用带注释的关系。
我们在[1]中使用相同的可见和不可见分类。分类考虑608个类别。其中,可见类目478个,不可见类目130个。利用VG数据集的part1进行训练,并从part2中随机抽取图像进行测试。结果得到54,913张训练图像和7,788张测试图像。这个数据集中的关系图有6,396条边。

5.3 指标和设置

我们使用分类精度(AC)进行评估,其中结果以两种方式聚合;“per-class”计算每个类的精度,然后计算所有类的平均精度,而“per-instance”是所有区域的平均精度。直观地说,“per-class”度量比“per-instance”度量给来自稀有类别的实例更多的权重。
在经典的和广义的Zero-Shot设置下对该算法进行了评估。该模型只要求在经典设置下测试时预测不可见类别,而在广义设置下既要考虑可见类别,又要考虑不可见类别。广义设置比经典设置更具挑战性,因为模型必须区分可见和不可见的类别。

5.4 基准方法

我们用几个基线来比较我们的方法。注意,所有基线都将图像中的每个对象视为单独的图像,因此仅使用实例级特性进行推理。
Word Embedding (WE) 如第3.2.1节所述,分类是通过区域特征与权重向量的点积来完成的。该方法将权向量设为每个类别的Glo Ve字嵌入量。注意,其他设置也使用相同的单词嵌入方法。
CONSE CONSE首先在S上对分类器进行全程监控。在测试时,不可见类中的每个实例通过可见类别嵌入的加权和嵌入到单词嵌入空间中,其中的权重由定义在S上的分类器给出。然后,在单词嵌入空间中,将图像预测到最近的未被看到的类(并在通用设置中看到)。
GCN 与CONSE类似,GCN首先在S上训练分类器。然后学习一个GCN模型,从所看到的类的模型中预测U的分类器权重。GCN将所有可见和不可见类别的嵌入词和S的分类器权值作为输入,通过回归学习全局分类器权值。最后,在推理模块中对可见和不可见类别都使用了预测的分类器权重。我们使用一个带有LeakyReLU的双层GCN作为激活函数。中间层采用Dropout,网络输出采用L2归一化。我们使用WordNet[31]来构建图形。VG中的每个类别都有对应的同步集,并在图中表示为节点。我们还在VG中添加了同步集的公共母节点,以便将它们连接到图中。总的来说,图中包含1228个节点。
SYNC 这种方法通过使用虚类对语义流形和可视化流形进行对齐。对虚拟分类器的权值进行训练,使失真误差最小
在这里插入图片描述
其中Ss为所见类别与虚分类器之间的语义相似矩阵,V为虚分类器的模型参数。对于U,分类器的权值由幻影分类器的凸组合为
在这里插入图片描述
其中Su为不可见类别与虚类之间的语义相似矩阵。

5.5 Zero-Shot 识别结果

表1给出了基于四种Zero-Shot识别基线方法的上下文感知算法的性能。在所有的主干基线上,我们的模型提高了在经典和通用设置中两个不可见类别的准确性。所见分类的性能不太一致,这主要是由于基线方法的特点,但总体上还是比较好。
对于原始的WE和CONSE方法,我们可以看到,在可见和未知之间存在着巨大的精度差距,尤其是在广义设置下。这意味着主干模型明显偏向于可见的类别。因此,很自然地,我们的模型牺牲了对S的精度来提高对U的性能。与此相反,GCN和SYNC则更加平衡,我们的算法能够不断地改进与GCN和SYNC相结合的可见和不可见类别。
在我们的上下文感知算法中,对可见和不可见类别的准确度的调和方法始终高于在一般设置下的基线方法。请注意,这个度量可以有效地比较[43]中建议的可见和不可见类别的总体性能。
在这里插入图片描述
Top-K refinement 正如我们在3.2.3节中提到的,我们的修剪方法使上下文感知推理成为topk类的重新链接。我们进行了当前的实验K = 5,其他K选项的结果见附件。在表3中,我们展示了不同算法在不可见类别上的“每个实例”前1和前5的准确度。由于我们只对前5个类重新排序,所以不会更改前5个精度,我们可以达到的前1个精度的上限是相应的前5个精度。在应用上下文感知推理之后,前1名的准确度增加了。值得注意的是,CONSE的基线模型在广义设置下的精度接近于0,因为它严重偏向于所看到的类别。然而,其前5名的准确度是合理的。该方法利用关联知识对前5名预测进行重新评价,显著提高了前1名的预测精度。
在这里插入图片描述
在这里插入图片描述
Qualitative result 图3显示了上下文感知推理的定性结果。我们的上下文感知模型根据对象上下文调整类的概率。例如,斑马在第一幅图中得到了提升,因为它身上的条纹有助于识别第二幅图中的披萨。可以发现不同的模式为标签细化:一般到具体(家具到椅子,飞机到飞机,动物到斑马),具体到一般(摩天大楼到建筑物),并校正到类似的物体
(馅饼对披萨,爪子对蹄子)。图4显示了应用上下文感知推理后区域分类的更多定性结果。
在这里插入图片描述
Input choices for relationship inference 我们的关系推理模块只以几何信息作为输入,以避免对所看到的类别进行过度拟合。我们尝试的另一种方法是将其与区域外观特性相结合。我们将区域特征f i和f j投影到较低的维数中,并将其与在这里插入图片描述连接起来产生关系势。我们在表2中报告了结果。表中外观增强关系推理模块命名为+GA。结果表明,+GA对可见类别存在偏见,对不可见类别的性能有影响。+GA对不可见类别的广义设置甚至比基线更糟糕。
Results by varying the size of S 我们用1/2和1/5的比值进行子采样,生成若干个S子集,而不可见的类别集保持不变。表4显示,我们的上下文感知方法在消融研究中的Zero-Shot识别中始终受益。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5.6 Zero-Shot 检测结果

通过增加一个背景检测器,扩展了检测任务的区域分类模型。我们将背景类的分类器权重设置为归一化平均分类器权重:
在这里插入图片描述
其中每一行W都需要提前标准化。此外,考虑到数千个区域建议,我们只考虑实例级模块给出的类得分最高的前100个框,用于上下文感知推理。
在[1]之后,将提取测试图像的EdgeBoxs建议,其中只有得分高于0.07的建议被选择。检测后,采用IOU阈值0.4进行非极大抑制。由于在VG中不完整的注释,我们报告IOU阈值为0.4/0.5的Recall@100分数。表5给出了GCN和同步模型的实例级Zero-Shot性能,其中我们的方法显示了对不可见类别的更高精度和谐波方法给出的更高的总体召回。注意,我们对广义Zero-Shot设置的结果已经优于对[1]中报告的经典设置的结果。

总结

提出了一种基于高层视觉上下文信息的Zero-Shot目标识别方法。在此背景下,我们提出了一种结合实例级知识和对象关系知识的新算法。实验结果表明,与只有实例级信息的模型相比,我们的上下文感知方法显著提高了性能。我们相信,这种新的问题设置和所提出的算法有助于更有趣的研究Zero-Shot或Few-Shot学习。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值