SGG Trans【KERN:Knowledge-Embedded Routing Network for Scene Graph Generation】19Pytorch 20.12.16

Abstract

要深入了解场景,不仅需要查找/识别单个对象,还需要推断它们之间的关系和交互作用。 但是,由于现实世界关系的分布严重不平衡,因此,对于不频繁的关系,现有方法的效果很差。 在这项工作中,我们发现对象对及其关系之间的统计相关性可以有效地规范化语义空间,并减少预测的歧义,从而很好地解决了不平衡分布问题。 为了实现这一目标,我们将这些统计相关性并入到深度神经网络中,以通过开发知识嵌入式路由网络促进场景图的生成。 更具体地说,我们表明,图像中出现的对象及其关系之间的统计相关性可以由结构化知识图显式表示,并且可以学习路由机制以通过图传播消息以探索它们的交互作用。 在大规模视觉基因组数据集上的大量实验证明了该方法在当前最先进的竞争对手中的优越性。

1. Introduction

场景图[13]是图像内容的结构化表示,不仅可以对场景中单个对象的语义和空间信息进行编码,而且可以表示每对对象之间的关系。近年来,推断这种图形引起了越来越多的关注[30,6],因为它为图像提供了更深的理解,从而促进各种视觉任务,从基础心理识别和检测[20,8]到高级任务[34,32]。

用于场景图生成的现有方法依赖于目标对象区域[19,6]或进一步引入上下文线索[30,33]以帮助识别。 通常,这些方法需要大量带注释的样本才能进行模型优化。 然而,现实世界中关系的分布严重不均,导致训练样本数量有限的关系的表现相对较差。以Visual Genome数据集[14]为例,我们评估了前十名样本的性能 最频繁的关系(即“前10个”子集)和其余较不频繁的关系(即“the rest”子集)的样本。 如图1所示,当前最佳执行方法(即SMN [33])如果具有足够的训练样本,则可以实现竞争性能,但其性能会遭受严重下降。

视觉场景中的对象通常具有很强的结构规律性[33]。 例如,人们趋向于穿衣服,而汽车倾向于带有轮子。 对Visual Genome数据集[14]的统计分析[33]再次证明,直接预测具有给定标签的对象对最频繁关系的基线方法优于大多数现有的最新方法[23,30]。因此,对对象对和关系之间的这些统计相关性进行建模可以有效地规范这些语义预测空间,从而解决分布不均的问题。 另一方面,场景中关系和对象之间的相互作用在场景图生成中也起着重要作用[30]。

我们表明,对象对及其关系之间的统计相关性可以通过结构化知识图来明确表示,并且这两个因素之间的相互作用可以通过在图上传播节点消息来捕获。 同样,上下文提示也可以由具有适当消息传播功能的其他图形表示和探索在这项工作中,我们引入了一种新颖的知识嵌入式路由网络(KERN),该网络在先验统计知识的明确指导下捕获目标对象及其关系的相互作用,并自动挖掘上下文线索以促进场景图的生成。 尽管先前的研究[6,33]也注意到了统计知识,但它们只是通过关系和对象之间的迭代消息传播[30]或通过对对象和关系的全局上下文进行编码[33]隐式地挖掘了这些信息。 取而代之的是,我们的模型以结构化图形的形式正式表示了这一统计知识,并将该图形作为超指导合并到深度传播网络中。 通过这种方式,它可以有效地规范对象对之间可能关系的分布,从而使预测变得不太模糊。 如图1所示,与当前最佳性能方法(即SMN [33])相比,我们的模型对具有足够样本的关系实现了轻微的改进,而对于有限样本关系的改进则更为明显 。

我们的模型基于Faster RCNN检测器[25]来生成一组对象区域。 然后,首先建立根据统计对象共现关系将这些区域关联起来的图,然后使用传播网络通过该图传播节点消息,以学习上下文化的特征表示以预测有关每个区域的类标签。 对于每个带有预测标签的对象对,我们构建一个图形,其中节点代表对象和关系,边代表给定对象对与所有关系之间的统计共现概率。 此外,我们采用另一个传播网络来探索关系与对应对象之间的相互作用,以预测它们之间的关系。 对所有对象对执行此过程,并生成整个场景图。

另一方面,现有作品利用recall @ K(简称R @ K)[19]作为评估指标。 但是,该度量标准很容易被具有很大比例的样本的关系所控制。 由于不同关系的分布非常不均匀,因此,如果一种方法在几个最频繁的关系上表现良好,则可以实现较高的R @ Kscore。 因此,它不能很好地衡量所有关系的表现。 为了解决这个问题,我们进一步提出了平均召回率K(简称mR @ K)作为补充评估指标,它首先为每个关系的样本计算R @ K,然后对所有关系进行平均以获得mR @ K。@ K,mR @ K可以为所有关系提供更全面的绩效评估。

据我们所知,这项工作是第一个将统计知识与深层体系结构明确地统一起来,以方便场景图生成的工作。 与现有方法相比,我们的模型结合了这一知识来规范关系预测的语义空间,从而提高了场景图生成的性能。 我们在使用最广泛且最具挑战性的Visual Genome数据集上进行了实验[14],并证明我们的模型可以比现有的领先竞争对手获得最佳的R @ K性能。 值得注意的是,通过显式规范关系预测的语义空间,我们的模型可以很好地解决现实世界关系的不均匀分布问题,并在mR @ K metric上实现更明显的改进。 例如,在场景图分类任务中,我们的模型将mR @ 50和mR @ 100从15.4%和20.6%分别提高到19.8%和26.2%,相对改进分别为28.6%和27.2%。

Related work

2.1. Visual relationship detection

视觉关系检测包括检测图像中出现的语义对象,并推断每个对象对(即对象和对象)之间的关系。 在过去的十年中,一系列工作致力于识别“上方”,“下方”,“内部”和“周围”等空间关系[9、11、5],并探索使用这些关系来改善各种视觉任务,例如 物体识别[9],检测[8]和分割[11]。其他一些作品也尝试学习人与物体之间的互动[31,1],其中主体是一个人.

后来,在更一般和实际的设置下,视觉关系检测任务吸引了很多注意力[19、30、6、16、23、33、23],其中对象和对象可以是场景中的任何对象,并且它们之间的关系涵盖范围很广。 Lu等人的开创性著作,包括空间(如上,下),动作(如乘车,穿着),隶属关系(如部分)等一系列关系类型。分别训练了主题,关系和客体的vi-2虚拟模型,以解决关系三胞胎和杠杆语言在语义词嵌入之前的长尾分布问题,从而进一步提高了预测的性能。 徐等。 [30]引入了一个端到端模型,该模型学会了基于RNN [21]通过消息传递来迭代地完善关系和对象预测。 等等。 [16]建立了一个多任务框架来探索对象检测,场景图生成和图像标题生成这三个任务之间的语义关联,并发现共同学习这三个任务可以带来相互的改进。 最近,戴等人。 [6]设计了一种深层的关系网络,该网络利用空间配置和统计依赖性来解决关系识别过程中的歧义。 Zeller等人[33] 提出了对视觉基因组数据集上的关系和对象对之间的统计共现的分析[14],并得出结论,这些统计共现为关系船的预测提供了强大的正则化。 他们通过LSTM顺序体系结构[12]编码了对象和关系的全局上下文,以促进场景图解析。

作品[6,33]也注意到对象对及其关系之间的统计共现,但是他们设计了深度模型来通过消息传递隐式地挖掘此信息。 与这些作品不同的是,我们的模型正式表示了这些信息,并将它们明确地合并到图传播网络中,以帮助场景图生成。

2.2. Knowledge representation

已经进行了广泛的研究以结合先验知识来辅助众多视觉任务[20、8、15、7、2、18]。 [20]基于WordNet [22]和Visual Genomedataset [14]构建了一个知识图,并学习了该图的表示以增强图像特征表示以促进多标签识别。 Lee等。 [15]进一步将该方法扩展到多标签零镜头学习。 一些工作还利用知识图作为模型训练的额外约束z。 方等。 [8]将语义一致性纳入对象检测系统,并具有更严格的一致性概念更可能出现在图像中的约束。 邓等。 [7]介绍了语义关系,包括互斥,重叠和包容,损失函数的约束以训练分类器。 这些方法学习了用于增强功能的图表示或将图用作损失函数的额外约束。不同地,我们的模型引入了将目标对象对及其可能的关系相关联的图,以明确规范化关系预测的语义空间,从而解决分配不均的问题。

3. Model

场景图是图像中内容的结构化表示。 它由各个对象的类标签和位置以及每个对象对之间的关​​系组成,可以将其定义为三元组G = {B,O,R}:
在这里插入图片描述
R是所有关系的集合,包括表示给定对象对之间没有关系的无关系。给定一个图像I,我们将场景图p(G | I)的概率分布分解为三个类似于[33]的分量:
在这里插入图片描述
在此等式中,边界框分量p(B | I)生成一组直接从输入图像覆盖大部分关键对象的候选区域。 类似于先前的场景图工作[6,33],该组件由广泛使用的Faster RCNN检测器[25]实现。 然后,对象分量p(O | B,I)会针对每个检测到的区域预测类别标签。 在这里,我们根据统计对象的共现信息构造一个与检测到的区域相关的图(见图2(a))。 然后,我们的模型采用图神经网络[27,17]通过图传播消息,以学习每个区域的上下文表示,并在对象共现统计信息的约束下实现更好的标签预测。 以预测标签为条件,重新关系分量p(R | O,B,I)推断关系。每个对象对的最终生成整个场景图。 对于每个带有预测标签的对象对,我们构建一个图,其中节点引用对象和关系,并且边表示相应对象对与所有关系对象之间的统计共现(参见图2( b))。 类似地,学习了另一个图神经网络,以探索关系和对象之间的相互作用,最后,通过汇总所有节点的特征来预测关系。 我们的模型对所有对象对执行此过程,并生成整个场景图。 图3说明了所建议模型的总体流程。

3.1. Bounding box localization

对于图像,模型首先获得一组候选区域。 在这项工作中,我们利用Faster RCNN [25]直接从输入imageI自动生成区域setB = {b1,b2,…,bn}。 对于每个区域,除了用大量的框框bi∈R4表示其位置外,我们的模型还提取了通过ROI汇聚层[10]提取的特征向量。然后将这些特征向量馈入传播网络以进行后续推理。

3.2. Knowledge-embedded routing network

object
对象共现的统计信息是图像中对象关联的重要线索,是对象标签预测的正则化。在这项工作中,我们根据这些统计相关性建立一个图来关联图像中检测到的区域,并使用一个图神经网络通过图来传播消息,该图可以学习上下文化的表示来预测关于每个区域的类标签.

为此,我们首先在目标数据集的训练集上计算不同类别对象的统计共现概率(例如,Visual Genome [14])。更具体地说,对于两类candc’,我们计算存在的概率mcc’ 属于categorycin的对象的存在属于categoryc’的对象。 我们计算所有猫对对的这些共现概率,并获得矩阵Mc∈RC×C,其中C为对象类别的数量。 然后,我们基于矩阵Mc关联来自B的区域。 给定bianbjj的两个区域,我们复制biC次以获取Cnodes {bi1,bi2,…,biC},nodebic表示regionbi与categoryc的相关性。 执行相同的过程。 直观地,可以将mcc’用于将nodebjc’与bic关联,因此,可以将Mc’用于将bj的区域关联节点的节点关联。 这样,我们可以关联所有区域并构建图.

Relationship
给定对象对的类别,它们之间关系的概率分布高度不对称。例如,给定一个主题“人”和一个对象“马”,它们的关系很可能是“骑”。 在这里,我们以结构化图的形式表示对象对及其关系的相关性,并采用另一个图神经网络来探索这两个因素的相互影响以推断关系.

4. Experiments

4.1. Experiment setting

Evaluation metrics.
所有方法都使用recall back @ K(简称R @ K)度量进行评估,该度量测量出现在图像中最靠前的最可靠三元组预测中的地面真相三元组的分数。 但是,如图4(a)所示,不同关系的分布严重不均匀,并且该指标很容易由最频繁关系的表现所支配。 为了更全面地评估每个关系船的绩效,我们进一步提出了一个新的标准,即平均召回率(简称mR @ K)。 此度量分别计算每个关系的样本的R @ K,然后对所有关系的R @ K求平均值,以获得mR @ K.

某些先前的工作[30]计算R @ K的约束条件是,给定对象对仅获得一种关系。 其他一些工作[23]忽略了这种约束,因此可以获取多个关系,从而导致更高的价值。 在这项工作中,我们分别报告有约束和无约束的R @ K和mR @ K,以进行全面比较.

4.2. Comparison with state-of-the-art methods

VG [14]是用于评估场景图形生成任务的最大,使用最广泛的基准。 在本部分中,我们将我们提出的方法与现有的最新方法进行比较,包括视觉关系检测(VRD)[14],迭代消息传递(IMP)[30]及其使用更好的检测器的改进版本。 (IMP +)[30,33],关联嵌入(AE)[23],FREQuencybaseline(FREQ)[33]和堆叠式主题网络(SMN)[33]。

我们首先在表1的VG数据集上的三个任务上展示mR @ 50和mR @ 100。如图所示,FREQ基线方法可以更好地预测具有给定标签的对象对的最频繁的关联,效果更好比大多数现有作品要多。 这种比较表明,对象对及其关系之间的统计相关性比上下文提示之类的其他信息具有同等甚至更重要的作用[30]。 SMN是现有作品中表现最好的方法,它通过对全局上下文进行编码来隐式捕获这些统计相关性。 在有和没有约束的情况下,它在评估设置下的平均mR分别为9.0%和20.6%。通过明确地纳入统计相关性,我们的方法可以更好地利用它们,从而显着改善性能。 具体而言,在两个设置下,它在所有三个任务上始终优于现有方法。 例如,它获得的平均mR为11.7%和26.5%,与以前的最佳性能方法(即SMN)相比,相对改进了30.0%和28.6%。 请注意,我们使用先前的统计相关性来辅助场景图生成。 但是这些相关性仅基于训练集中样本的注释获得,并且没有引入额外的监督。 因此,前面的比较是公平的,.

为了与现有方法进行更全面的比较,我们还在表2中的VG数据集的三个任务上给出了R @ 50和R @ 100。 具体来说,在有和没有约束的情况下,meanR分别为44.1%和55.4%,与SMN相比分别提高了0.4%和0.7%.

如上面的讨论和比较所示,在mR @ Kmetric和R @ Kmetrics上,我们的方法与现有的最新方法相比都有改进。 但是,我们发现对mR @ K指标的改进比对R @ K指标的改进要明显得多。 在这里,我们对这种现象进行了更深入,更全面的分析。 我们首先在图4(a)中展示VG数据集上不同关系的分布,并且训练和测试分割上的相应分布与该分布基本相同。 不均匀的。 前10个最频繁的关系中的样本约占90%,而其余40个关系中的样本仅约占10%。 因此,R @ K指标由这些最频繁的关系的执行控制。 如图4(b)所示,当前的最新方法(即SMN)对于这些关系(如“开”,“有”)表现良好。 因此它可以达到一个良好的R @ K。 但是,SMN对于样本较少的关系(例如“ make of”,“ to”)表现不佳。mR@ Kmetric衡量整体绩效的整体关系; 因此,这些较差的结果会导致该指标明显下降。与现有方法不同,我们的模型整合了先验知识,以明确规范化语义空间; 因此,它对于这些无常的关系也表现良好。 这样,我们的模型可以很好地解决关系分配不均的问题。

为了更直接地比较性能改善与样本数量之间的关系,我们在图5(a)和5(b)中进一步介绍了每种关系和样本比例的R @ 50改善。 如图所示,我们的模型在几乎所有关系上都取得了明显的改善(47/50)。 此外,与较少样本的关系的改善更为明显。

4.3. Ablative study

我们的方法的核心是明确地结合了对象对的统计相关性和它们之间的关系。为了更好地验证其有效性,我们将统计概率替换为均匀分布,即分配每个achmcc的kto1K,其他成分保持不变。实验在VG数据集上进行,结果如表3所示。结果表明,mR均值由11.7%降至7.9%,R均值由44.1%降至40.6%。这种明显的性能下降清楚地表明加入统计相关性对场景图生成有显著的帮助。

通过出现在图像中的区域的消息可以学习上下文表示。 同样,我们通过用均匀分布替换统计概率来分析其重要性,然后在VG数据集上重新训练模型。 如表3所示,平均mR和meanR均下降0.3%

5. Conclusion

统计对象对及其关系之间的统计相关性的先验知识可以帮助规范给定目标对象对的关系预测的语义空间,从而有效解决不同关系之间分布不均的问题。 在这项工作中,我们显示了可以用知识图显式表示这些相关性,其中知识的路由机制是在结构化知识的明确指导下通过图传播节点消息的。 我们对使用最广泛的Visual Genomebenchmark进行了实验,并证明了该方法的优越性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值