Trans SGG[GPS-Net]

摘要

场景图生成(SGG)的目的是检测图像中的物体及其配对关系。场景图的三个关键属性在最近的研究中没有得到充分的探讨:即边缘方向的形成、节点间的优先级差异和关系的长尾分布。因此,在本文中,我们提出了一个图形属性传感网(GPS-Net),充分探索了SGG的这三个属性。首先,我们提出了一个新的消息传递模块,用节点特定的文本信息增强节点特征,并通过一个三线模型编码边缘方向信息。第二,我们引入了一个对节点优先级敏感的损失,以反映训练期间节点之间的优先级差异。这是通过设计一个映射函数来实现的,该函数可以调整焦点损失中的焦点pa-rameter。第三,由于重新关联的频率受到长尾分布概率的影响,我们通过首先软化分布,然后使其能够根据每个主客体的视觉外观进行调整来缓解这一问题。系统性的实验证明了所提出的技术的有效性。 此外,GPS-Net在三个流行的数据库中取得了最先进的性能。VG、OI和VRD,在不同的设置和指标下都有明显的提升。

1.介绍

场景图生成(SGG)为场景理解提供了一种有效的方法,并为各种计算机视觉任务提供了宝贵的帮助,包括图像字幕[1]、视觉问题回答[2]和三维场景合成[3]。这主要是因为场景图[4]不仅记录了场景中物体的类别和位置,而且还表示了物体的成对视觉关系。

如图1(a)所示,一个场景图是由<主体-关系-对象>形式的多个三联体组成的。具体来说,一个物体用它的类别标签表示为一个节点,而一个关系的特点是两个节点之间有一条带有特定类别的谓词的定向边。边缘的方向指定了一个三联体中的主语和宾语。由于关系表征的复杂性和训练数据的不平衡性,SGG已经成为计算监督中一项具有挑战性的任务。

场景图的多个关键属性在现有的研究中没有得到充分的探讨,例如[5, 6, 7]。其中第一个是边缘方向。事实上,边的方向不仅表示一个三联体中的主体和客体,而且也影响到关系的类别。此外,它还影响到相应节点的上下文信息,如最近的研究[8, 9]所示。图1(b)中描述了一个例子,如果人和其他物体之间的流动方向相反,上下文的焦点就会改变,从而影响到所有相关节点的上下文信息。这是因为节点的重要性是根据它们在图中所包含的三联体的数量而变化的。如图1©所示,leg、dogandman在图中分别涉及两个、三个和四个三联体。因此,考虑到每个节点对这个场景图的贡献,物体检测的优先级应该遵循这样的顺序:人>狗>腿。然而,现有的工作通常对场景图中的所有节点一视同仁。

在这里,我们提出了一个新的方向感知信息传递(DMP)模块,它利用了边缘方向信息。DMP通过提供节点特定的上下文信息来增强每个节点的特征,其策略如下。首先,DMP不使用流行的一阶线性模型[10, 11],而是采用基于Tucker分解的三线性模型[12],以产生一个指导信息传递的注意力图。在三线性模型中,边缘方向会影响产生的注意力分数。第二,我们用它的转置来增加注意力图,以考虑到在信息传递步骤中边缘方向的不确定性。第三,采用转化器层来完善所获得的上下文信息。

之后,我们设计了一个节点优先级敏感的损失(NPS-loss)来编码场景图中n个节点之间的优先级差异。具体来说,我们通过调整焦点损失[13]的聚焦参数表来操纵每个节点的损失贡献。这种调整是基于图的三联体中包含的每个节点的频率。因此,网络在训练期间可以更多关注高优先级的节点。与[11](利用非微分的局部敏感损失函数来表示节点的优先级)相比,所提出的NPS-损失是微分的和凸的,因此它可以很容易地通过基于梯度下降的方法进行优化,并部署到其他SGG模型中。

最后,关系的频率分布已被证明在关系预判中作为先验知识是有用的[7]。然而,由于这种分布是长尾的,它作为先验知识的有效性在很大程度上被降低了。例如,如图1(d)所示,一个SGG模型倾向于对坐着的人进行分类,因为后者的发生率比较高。因此,我们提出两个策略来处理这个问题。首先,我们利用一个对数软函数来软化关系-S的频率分布。 第二,我们提出了一个注意力模型,根据每个主客体对的视觉外观来适应性地修改其频率分布。

综上所述,拟议的GPS-Net的创新之处在于三个方面。(1)用于消息传递的DMP,它用节点特定的上下文信息增强了节点特征;(2)用NPS-loss编码不同节点之间的优先级差异;(3)用一种新方法处理关系的长尾分布。在三个流行的SGG数据库上系统地评估了所提出的GPS-Net的功效。视觉基因组(VG)[14]、开放图像(OI)[15]和视觉关系检测(VRD)[16]。实验结果表明,所提出的GPS-Net始终能够达到顶级的性能。

我们提出的场景图生成网络的整体框架如图2所示。为了更好地捕捉场景图的属性,我们从三个方面做出了贡献。第一,我们在3.1节设计了一个引入外部知识库的目标检测模块(蓝色);第二,在3.2节介绍了基于Transformer的上下文提取模块(绿色);第三,在3.3节设计了一个特征特殊融合的适应性推理模块(橙色)。首先,在给定的一幅图像中,目标检测模块生成了物体边界框和物体的类别分类概率。然后在Transformer的上下文捕捉模块中,输出包含了上下文信息的对象类别标签以及谓语关系的上下文信息表示。最后,将得到的关系上下文信息表示进行特殊的特征融合,并且融合处理过的频率偏差进行对象对的关系预测。

2. Related Work

**Visual Context Modeling:**最近的虚拟语境建模方法可以分为两类,分别对全局和特定对象的语境进行建模。为了对全局环境进行建模,SENet[17]和PSANet[18]在特征图中采用了对不同通道的重新缩放,以实现特征融合。此外,Neural Motif[7]通过长短期记忆网络表示全局背景。

为了对特定对象的背景进行建模,NLNet[19]采用了自我注意机制来对像素级的成对关系进行建模。CCNet[20]通过堆叠两个纵横交错的块来加速NLNet。然而,正如[21]中所指出的,这些方法[22, 23, 24]由于使用了一阶线性模型,可能无法学习特定对象的上下文。为了解决这个问题,我们设计了一个方向感知的信息传递模块,通过三线性模型生成特定节点的上下文。

场景图的生成现有的SGG方法可以大致分为两类:即单阶段方法和双阶段方法。一般来说,大多数单阶段方法都集中在物体检测和关系表示上[1, 5, 10, 16, 22, 30],但几乎忽略了场景图的内在属性,例如,边缘方向和节点优先级。为了进一步捕捉场景图的属性,两阶段方法利用一个额外的训练阶段来完善第一阶段训练产生的结果。例如,[24]利用场景图的互变代表来完善[7]的结果。此外,[2]利用动态树结构来描述场景图的非循环属性。 同时,[11]采用了一个图层面的指标来学习场景图的节点优先级。然而,[2,11]中采用的损失函数是不可分的,因此难以优化。所提出的方法是一个单阶段的方法,但与现有的工作相比,有以下优点。首先,它更恰当地开发了场景图的属性。其次,它很容易优化并部署到现有的模型中。

3.方法

图2展示了拟议的GPS-Net。我们采用Faster R-CNN[25]来获得每个图像的对象建议。我们采用与[7]完全相同的方法来获得每个建议的特征。有O物体类别(包括背景)和R关系类别(包括非关系)。第三个提案的视觉特征是由外观特征vi∈R2048、物体分类置信度评分i∈RO和空间特征bi∈R4串联而成的。然后,联合起来的特征被投射到一个512维的子空间,并表示为xi。此外,我们进一步从一对proposaliandj的联合盒中提取特征,表示为suij∈R2048。为了更好地捕捉场景图的属性,我们从三个方面做出了贡献。 首先,在第3.1节中介绍了一个方向感知的消息传递(DMP)模块。第二,在第3.2节中介绍了一个节点优先级敏感损失(NPS-loss)。第三,在第3.3节中设计了一个适应性推理模块(ARM)。

3.3. Adaptive Reasoning Module

在通过DMP获得细化的节点特征和通过NPS-loss获得对象分类分数后,我们进一步提出了一个用于关系分类的自适应推理模块(ARM)。具体来说,ARM通过两个步骤为分类提供先验:频率软化和每个三联体的偏差适应。在下文中,我们将详细介绍这两个步骤。
Frequency Softening
受[7]中引入的频率基线的启发,我们采用关系的频率作为先验来促进关系分类的性能。然而,[7]中的原始方法受到关系的长尾分布问题的影响。因此,它可能无法识别低频的关系。为了处理这个问题,我们首先采用一个对数软化函数来软化关系的原始频率分布,如下所示。
在这里插入图片描述
Bias Adaptation
为了使每个节点对的频率先验可调整,我们进一步提出了一种选择性的注意机制,根据节点对的视觉外观来修改先验。具体来说,我们应用一个sigmoid函数来获得对频率先验的关注,或者说是对频率先验的关注。
在这里插入图片描述

4 实验部分

1.实验设置

VG
我们使用最近的工作中广泛采用的相同的数据和评价指标[22, 10, 1, 24, 30, 11]。具体来说,最频繁的150个物体类别和50个关系类别被用于评估。经过预处理,每幅图像的场景图平均由11.6个物体和6.2个关系构成。数据被分为一个训练集和一个测试集。训练集包括70%的图像,其中5K图像作为验证子集。测试集由其余30%的图像组成。为了进行公平的比较,我们还采用了带有VGG-16主干的Faster R-CNN[25]来获得物体建议的位置和特征。此外,由于SGG的性能高度依赖于预先训练好的物体检测器,我们分别采用了与[7]和[6]相同的超参数集。我们按照三个常规协议进行评估。(1)场景图检测(SGDET):给定图像,检测物体边界框及其类别,并预测其成对关系;(2)场景图分类(S-GCLS):给定真实的物体边界框,预测物体类别及其成对关系;(3)谓词分类(PREDCLS):给定物体类别及其边界框,仅预测其成对的重新关系。所有的算法都是通过Recall@Kmetrics来评估的,其中K=20,50,和100,分别。考虑到关系的分布在VG中是高度不平衡的,我们进一步利用平均召回率@K(mR@K)来评价每个关系的性能[2, 23] 。

为了确保与以前最先进的方法的架构兼容,我们利用ResNeXt-101-FPN作为我们在OI上的OpenImages主干,在VG和VRD上利用VGG-16。在训练过程中,我们冻结了ROIAlign层之前的各层,并考虑到对象和关系分类的损失,共同优化模型。我们的模型通过SGD优化,初始学习率和批量大小分别为10-3和6。在SGDET任务中,我们遵循[7],即我们只预测有重叠边界框的提案对之间的关系。此外,每幅图像中的前64个物体建议是在每类非最大抑制(NM-S)后选出的,其IoU为0.3。此外,在训练期间,没有任何关系的对(背景对)和有关系的对之间的比例被抽样为3:1。

4.3. Comparisons with State-of-the-Art Methods

表1显示,GPS-Net在各种指标上都优于所有先进的方法。具体来说,GPS-Net在R@50和R@100上比三个协议平均高出1.8%,超过了最近的一个名为KERN[23]的单阶段模型。即使与最好的两阶段模型CMAT[11]相比,GPS-Net仍然显示出比三种协议平均提高0.5%的性能。同时,与VCTREE[2]和CMAT[11]的单阶段版本相比,GPS-Net在SGCLS上分别实现了1.5%和2.5%的性能提升,Recall@100.Another,GPS-Net比VCTREE和CMAT的优势在于GPS-Net的效率更高,因为这两种方法采用策略梯度进行优化,这很耗时[46]。此外,与使用相同骨干网的RelDN相比,GPS-Net的性能提升更为明显,即在SGCLSat Recall@100上提升了5.5%,在三种协议中平均提升了2.5%。由于VG中的类别不平衡问题,以前的工作通常在频率较低的类别上取得较低的性能。因此,我们利用平均召回率作为评价指标进行了实验[23, 2]。如图2和图5所示,GPS-Net在平均召回率和召回率指标上都有很大的绝对收益,这表明GPS-Net在处理SGG的类不平衡问题上有优势。

4.4. Ablation Studies

为了证明我们提出的方法的有效性,我们进行了四项消融研究。表5和表6分别总结了消融研究的结果。

拟议模块的有效性。
我们首先进行消融研究,以验证DMP、NPS-loss和ARM的有效性。结果总结在表5中。我们将上述模块逐一添加到基线模型中。在表5中,Exp 1将我们基于MOTIFNET-NOCONTEXT方法[7]的基线与我们的关系预测的图像构建策略进行了对比。从Exp 2-5中,我们可以清楚地看到,当所有模块一起使用时,性能得到了持续的改善。这表明每个模块在推断对象标签和它们的成对关系中起着关键作用。

DMP中的堆积操作的有效性。
我们对DMP中的堆叠操作进行了补充分析。堆叠操作考虑了边缘方向信息的不确定性。如表6的左次表所示,堆叠操作在不同的指标上持续地提高了DMP的性能,因此,其有效性是合理的。

三个MP模块之间的比较。
我们在第3.1节中比较了三个MP模块的性能:GCMP,S-GCMP,和DMP。为了便于公平比较,我们在另外两个模块中实现了与DMP相同的转换层。如表6中间的子表所示,DMP的性能要比另外两个模块好得多。这是因为DMP编码了边缘方向的信息,并为参与消息传递的每个节点提供了特定的节点上下文信息。

NPS损失的设计选择。
控制因子μ的值决定了节点优先级对对象分类的影响。如表6右边的子表所示,我们显示了NPS-loss在三个不同的μ值下的性能。我们还将NPS-loss与focalloss[13]进行比较。当μ等于4时,NPS-loss取得了最好的性能。此外,NPS-loss优于focal loss,证明了它在解决SGG的节点优先级问题上的有效性。

5. Conclusion

在本文中,我们设计了GPS-Net,通过捕捉场景图的三个关键属性来解决SGG的主要挑战。 具体来说,(1)在通过DMP模块计算节点特定的上下文信息时,对边缘方向进行编码;(2)节点优先级的差异由一个新的NPS-loss来描述;(3)通过ARM改善关系频率的使用,缓解了关系的长尾分布问题。通过广泛的比较实验和消融研究,我们在三个数据集上验证了GPS-Net的有效性。

本文提出了一种结合外部知识库和适应性推理的场景图生成(EASG)模型。鉴于先验知识已经被证明可以显著提高场景图的生成质量,本文首先提出了结合外部知识库的目标检测模块来获得额外的语义信息。其次,利用改善的Transformer架构对图像中的全局上下文信息进行编码,并分段进行信息合并,增强了关系标签的信息量,规范化了场景图的语义空间。最后利用特征特殊融合的适应性推理模块缓解了数据集关系频率的长尾分布问题。通过VG数据集上广泛的对比实验和消融实验,证明了本文方法在场景图生成性能上的有效改善。

场景图生成(SGG)的目的是检测图像中的物体及其配对关系。场景图的三个关键属性在最近的研究中没有得到充分的探讨:即边缘方向的形成、节点间的优先级差异和关系的长尾分布。因此,在本文中,我们提出了一个图形属性传感网(GPS-Net),充分探索了SGG的这三个属性。首先,我们提出了一个新的消息传递模块,用节点特定的文本信息增强节点特征,并通过一个三线模型编码边缘方向信息。第二,我们引入了一个对节点优先级敏感的损失,以反映训练期间节点之间的优先级差异。这是通过设计一个映射函数来实现的,该函数可以调整焦点损失中的焦点pa-rameter。第三,由于重新关联的频率受到长尾分布概率的影响,我们通过首先软化分布,然后使其能够根据每个主客体的视觉外观进行调整来缓解这一问题。系统性的实验证明了所提出的技术的有效性。 此外,GPS-Net在三个流行的数据库中取得了最先进的性能。VG、OI和VRD,在不同的设置和指标下都有明显的提升。
从TRSG模型得到的上下文信息通过规则化语义空间可以引导模型更好的学习低频关系标签,从而缓解场景图生成关系分配不均的问题。同时,transformer的并行计算能力也大大提升了场景图生成的效率。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值