SGG Trans【Unbiased Scene Graph Generation from Biased Training】学习记录

摘要

如今的场景图生成(SGG)任务仍然不切实际,这主要是由于严重的训练偏见,例如,各种人在海滩上行走/坐着/躺着折叠成海滩上的人类。 然而,在SGG中进行去偏并不是微不足道的,因为传统的去偏方法无法区分好的和坏的偏见,例如,先于上下文的好习惯(例如,人读书而不是吃东西)和长尾的不好的偏见(例如 ,取消隐藏在/之前/之后。 在本文中,我们提出了一种基于因果推理而非常规可能性的新颖的SGG框架。 我们首先为SGG建立因果图,然后对图进行传统的有偏训练。 然后,我们建议从训练图上得出反因果关系,以从不良偏见中推断出影响,应将其消除。 特别是,我们使用总直接效应作为无偏SGG的最终谓词分数。 请注意,我们的框架对于任何SGG模型都是不可知的,因此可以在寻求无偏预测的社区中广泛应用。通过在SGG基准Visual Genome上使用拟议的场景图诊断工具包1和几种流行的模型,我们观察到了相对于先前状态的显着改进。

1. Introduction

场景图生成(SGG)[64]-图像中对象及其关系的视觉检测任务-似乎从未实现其诺言:支持视觉推理等高级任务的图形推理的全面视觉场景表示[69 ,67]和VQA [56,14]。 一旦配备了SGG,这些高级任务就必须放弃模糊的视觉关系,然而我们在这些核心工作上做了[71、55、6],然后假装有一个图-只有带有二进制链接的稀疏对象布局,最后将其封装到图形神经网络[65]中,以获得更多上下文相关的对象代表[67,16,56]。 尽管这部分是由于图推理中的研究差距[2,51,15],但症结在于偏置关系预测。

在这里插入图片描述

图1可视化了最新模型的SGG结果[71]。 我们可以看到一个令人沮丧的场景:在几乎完美检测到的物体中,它们的大部分视觉关系都是琐碎的,信息量也较小。 例如,在图1(c)中,除了琐碎的2D空间布局外,我们从near,on和has的图像知识都很少。 这种高度偏向的生成来自偏向的训练数据,更具体地说,如图1(b)所示,这是高度偏斜的长尾关系注释。 例如,如果训练一个模型来预测on比stand on高出1,000倍,则在测试过程中,前者更有可能胜过后者。 因此,为了进行明智的图论推理,我们需要将更细粒度的关系与表面上可能但微不足道的关系区分开,例如在图1(d)中将near 用behind/ in front of替换,和将on用parking on/ driving on替换。

但是,我们不应责怪这种偏见训练,因为我们的视觉世界对我们描述方式的偏见是不言而喻的:确实有更多的person carry bag而不是dog carry bag(即长尾理论); 对于我们来说,person beside table(即,有限理性[52]); 因此,我们将骑车人而不是骑车人(即语言或举报偏见[35])优先。 实际上,大多数有偏见的注释都可以帮助模型学习良好的上下文先验[31,71],以过滤掉不必要的搜索候选,例如桌子上的苹果公园和戴帽子的苹果。 一个令人鼓舞但令人尴尬的发现[71]:仅通过使用Visual Genome基准测试[22]中检测到的对象类的统计先验,我们就可以在Recall @ 100上实现SceneGraph Detection的30.1%的效果—渲染所有图像 更为复杂的SGG模型几乎没有用-仅比最新技术水平[5,55,74]低1.1-1.5%。 毫不奇怪,我们将在第5节中说明,常规的去偏方法在训练过程中不尊重“良好的偏见”,例如,重新采样[11]和重新加权[29],无法归纳未知的关系,即零关系 射出SGG [31]。

对于机器和人来说,决策都是内容(内生原因)和上下文(外生原因)的共同协作[58]。 以SGG为例,在大多数SGG模型中[71,5,74],内容是主体和客体的视觉特征,上下文是主体-客体结合区域和成对物体类的视觉特征。 我们人类-在偏见中成长和成长-善于拥抱善良而又避免恶劣的环境,并与内容一起做出公正的决定。 潜在的机制是基于因果关系的:决策是通过追求由内容引起的主要因果关系而不是上下文带来的副作用而做出的。但是,另一方面,机器通常是基于可能性的:预测类似于查找目标内容和它的背景在一个巨大的似然表,交互由人口培训。我们认为关键是教会机器如何区分主要的好处和副作用。

在本文中,我们建议赋予机器反事实因果能力[41],以追求无偏预测中的“主效应”:
如果我没有看到内容,我仍会做出相同的预测吗?
反事实介于“我看到”和“我没有”的想象之间,事实与反事实之间的比较自然会从上下文偏见中消除影响,因为上下文是两个选择之间唯一不变的事物。
为了更好地说明可能性与反事实因果关系之间深刻而微妙的差异,我们在图2(a)中以冲浪板为例进行介绍。 由于训练有偏,该模型将最终对其进行预测。 请注意,尽管其余选择并非都完全正确,但由于存在偏差,它们仍然有助于过滤掉大量不合理的选择。 为了更仔细地研究在上下文偏差中它是什么关系,我们在本质上将原始场景与同情场景进行了比较(图2(b)):仅擦除了狗和冲浪板的视觉特征,同时保持了其余部分(该场景和 对象类-未被触摸,就好像视觉功能曾经存在过一样。 通过这样做,我们可以专注于关系的主要视觉效果而不会丢失上下文。

我们基于因果推理中的总直接效应(TDE)分析框架提出了一种新颖的无偏SGG方法[59,39,60]。 图3(a)显示了两个交替场景的事实因果图[40、41]:事实和反事实。 尽管在第3-4节中正式介绍了主题,但现在您可以简单地将节点理解为数据特征,将有向链接理解为(参数)数据流。 例如,X→Y,Z→Y和I→Y表示关系Y是由内容引起的组合效果:一对对象视觉特征X,上下文:其对象类别Z和场景:图像I; 淡色链接表示消失的X不再是由Ior影响Z引起的。 这些图提供了计算TDE的算法公式,可精确实现图2中的表观思维。如图3(b)所示,拟议的TDE显着改善了大多数谓词,并且令人印象深刻的是,分布 改进的性能不再长期存在,这表明我们的改进确实来自所提出的方法,而不是来自对上下文偏差的更好利用。 图6的进一步分析表明,尽管预测很少(尽管很少),但更糟糕的预测是由于转向了更细粒度的结果(如onandparkon)。 我们着重指出,TDE是一种与模型无关的预测策略,因此适用于各种模型和融合技巧[73,71,55]。

最后但并非最不重要的一点是,我们提出了SGGdiagnosis工具包的新标准(请参阅5.2节),以进行更全面的SGG评估。 除了传统的评估任务外,它还包含偏见敏感的度量标准:均值调用[55,6]和新的句子到图的检索,以实现更全面的图形级度量标准。 通过在SGG基准Visual Genome [22]和一些流行的基准上使用该工具包,我们验证了现有模型中的严重偏差,并证明了所提出的无偏预测优于其他无偏策略的有效性。

2. Related Work

场景图生成SGG [64,71]在计算机视觉界受到越来越多的关注,这是由于潜在的革命将带给下游视觉推理任务[51,67,21,16]。 大多数现有方法[64、62、7、25、70、55、66、10、43、61]都在为更好的特征提取网络做斗争。 Zellerset等 [71]首先引起了SGG的偏见问题,随后Fol-lowers [55,6]提出了无偏度量(均值召回),但是,他们的方法仍然仅限于特征提取网络,留下了偏偏的SGG问题。 最相关的工作[27]只是修剪训练集中那些占主导地位且易于预测的关系。

无偏训练:机器学习[57]中一直存在着偏见问题。现有的去偏方法大致可以分为三种类型:1)数据扩充或重新采样[9,24,26,11,3],2)通过精心设计的培训课程或学习损失来消除学习障碍[72,29],3)消除偏见与无偏见的区别[35,4]。 提出的TDE分析可以视为第三类,但主要区别在于TDE不需要训练像[35,4]这样的附加层来建模偏差,它直接通过因果图的反事实处理将偏差从现有模型中分离出来。

调解分析。也称为效果分析[59,41],在医学,政治或心理研究[45,18,8,32,20]中被广泛用作研究某人的效果的工具。 待遇或政策。 但是,多年来,它已在计算机视觉社区中被忽略。 很少有最近的著作[36,23,37,42,54,68]试图赋予模型因果推理能力。 更详细的背景知识可以在[40,41,59]中找到。

3. Biased Training Models in Causal Graph

如图4所示,我们以因果图(a.k.a.,结构因果模型)的形式总结了SGG框架[41,38,40]。 它是有向无环图G = {N,E},指示一组变量如何通过因果链接E相互交互。 它概述了数据背后的因果关系以及变量如何获取其值,例如(I,X,Z)→Y。 在进行反事实分析以故意操纵节点的值并修剪因果图之前,我们首先在图形视图中重新审视传统的有偏SGG模型训练。

图4(b)中的因果图适用于各种SGG方法,因为它具有很高的通用性,没有对详细实现施加任何约束。 我们案例3使用节点和链接的语言研究了三种代表性的模型公式:classicVTransE [73],最新的MOTIFS [71]和VC-Tree [55]。

(差很多)

4. Unbiased Prediction by Causal Effects

完成上述训练后,就可以根据模型参数了解变量之间的因果关系。 在没有关于特定对象对如何影响其谓词的任何想法的情况下,给定图像I = u,常规的有偏预测只能看到整个图的输出。 然而,因果推论[41]鼓励susses跳出黑匣子。 从图形的角度来看,我们不再需要整体运行整个图形。 我们可以直接操纵几个节点的值,看看会发生什么。 例如,我们可以切断链接I→X并为X分配一个伪值,然后研究谓词是什么。 以上操作被称为因果推理干预[40]。 接下来,我们将通过干预及其引起的反事实做出无偏见的预测。

(差很多)

5. Experiments

5.1. Settings and Models

数据集。对于SGG,我们使用视觉基因组(VG)[22]数据集来训练和评估我们的模型,该模型由跨越75k对象类别和37k谓词类别的108k图像组成。 但是,由于92%的谓词不超过10个实例,因此我们遵循了被广泛采用的VG拆分[64、71、55、5],其中包含最频繁的150个对象类别和50个谓词类别。 原始拆分仅具有训练集(70%)和测试集(30%)。 我们跟随[71]从训练集中采样5k验证集以进行参数调整。 对于句子到图的检索(请参阅第5.2节),我们选择了VG和MS-COCO Caption数据集[30]之间重叠的41,859个图像,并将它们分为train / test-1k / test-5k(35,859 / 1,000 / 5,000)套。 后两个仅在暴露于真实的SG的情况下包含来自VG测试集的图像。 每个图像至少有5个字幕作为人工查询,与我们使用搜索引擎的方式相同。

模型zoo。我们评估了三种模型:VTransE[73]、MOTIFS[71]、VTree[55]和两种融合函数:SUMand GATE。它们按照我们的建议使用相同的ecodebase重新实现。所有模型共享相同的超参数和预训练的检测器主干。

5.2. Scene Graph Generation Diagnosis

我们提出的SGG诊断具有以下三个评估:

1.关系检索(RR)。它可以进一步分为三个子任务:(1)谓词分类(PredCls):以地面真相边界框和标签作为输入,(2)场景图分类(SGCls):使用地面真相边界 没有标签的盒子,(3)场景图检测(SGDet):从头开始检测SG。 RR的传统指标是Recall @ K(R @ K),由于报告的偏见[35],在本文中已将其废弃。 如图3(b)所示,以前的方法(如[71])在R @ K上表现良好,不公平地迎合了“ head”谓词。为了表示有价值的“尾巴”而不是琐碎的“头”,我们采用了由Tanget等人提出的最近的替代方法, mean Recall @ K(mR @ K)。 [55]和Chenetal。 [6]。 mR @ K分别检索每个谓词,然后平均所有谓词的R @ K

2.零拍关系检索(ZSRR)。它由Luet等人介绍。 [31]本文首先在VG数据集上评估asZero-Shot Recall @ Kand,它仅重新报告了在训练集中从未观察到的主谓词三元组的R @ K。 ZSRR还和RR一样具有三个子任务。

3.....

5.3. Implementation Details

Object Detector.
遵循先前的工作[64,71,55],我们预训练了Faster R-CNN [44],并将其冻结为SGG模型的基础检测器。 我们为Faster R-CNN配备了ResNeXt-101-FPN [28,63]作为主干,将输入图像的长边缩放为1k像素。 在VG using SGD作为优化程序的训练集上对检测器进行了训练。 我们将批量大小设置为8,并将初始学习率设置为8×10-3,这在30kthand 40kthits上被10的因子所衰减。 最终检测器在VG测试装置上达到了28.14mAP(使用0.5 IuUthreshold)。 预训练使用了4个2080ti GPU。

Scene Graph Generation.
在冻结探测器的顶部,我们使用SGD作为优化器训练了SGG模型。 对于PredCls和SGCls,批次大小和初始学习率分别设置为12和12×10-2。 SGDet为8和8×10−2。 验证性能平稳后,学习率将下降10倍。 对于SGDet,每个图像采样了80个RoI,并将具有0.5 IoU的PerClass NMS [48,71]应用于对象预测。 在训练期间,我们抽取了多达1,024个对象对,其中包含75%的背景对。 与先前的著作[71,55,5]不同,我们没有假设SGDet中不重叠的主客体对是无效的,这使得SGG更为通用。

5.5. Quantitative Studies 定量分析

RR & ZSRR
结果列于表1&2。尽管常规的去偏方法:重新加权和重新采样,直接修改mR @ K度量标准,但它们仅在RR中获得了有限的优势,而在ZSRR中却没有。 与RR SGDet中的Reweight的高mR @ K相比,它在ZSRR SGDet中获得了0.0 / 0.0的尴尬,这表明这种无偏见的训练方法事先破坏了有用的环境。Focal loss[29]几乎对RR和zsrr都不起作用。因果图手术X2Y和X2Y-Tr与基线相比均改善了RR和ZSRR,但其增加受到了限制。 TE与TDE的性能非常相似,但是正如我们所讨论的,它消除了一般偏差而不是对象-对象特定偏差。 NIE是从TE到TDE的边际改进,甚至比基准差。 尽管R @ K不是我们讨论的RR的合格指标,但我们仍在图6中报告了MOTIFS†-SUM的R @ 50/100性能。我们可以观察到从基线到TDE的性能下降,但进一步分析表明,那些被认为是 基线中正确的和TDE中的“不正确的”主要是“ head”谓词,并且它们被TDE分为更细粒度的“ tail”类。在所有三个模型和两个融合函数中,即使最差的TDE性能也优于以前的状态。 最先进的方法[55,6]大大提高了RR mR @ K。
S2GR
在S2GR中,Focal和Reweight甚至比基线还差。 根据我们的实验,在所有三种常规的去偏方法中,重采样是最稳定的一种。 X2Y和X2Y-Tr与基准相比具有较小的优势。 TE位居第二,仅比TDE差一点。 如我们所料,NIE是最糟糕的,因为它仅基于纯上下文偏差。 值得一提的是,在我们应用了TDE之后,这三个模型和两个融合功能都进行了重大改进

5.6. Qualitative Studies

我们在图7的顶部和中间行可视化了从MOTIFS†-SUM基线和TDE生成的几个SGCls示例,与优先于琐碎谓词的基线模型相比,由TDE生成的场景图具有更大的判别力。 中间行的右半部分显示,当女孩不碰风筝时,由于长尾偏斜,基线模型甚至会保持不变,这意味着偏斜的预测很容易被“盲目”,而TDE则成功地预测了视线。 图7的底部是S2GR的一个示例,其中考虑到在街道上行走的人和在街道上站立的人的情况,通过基线模型检测到的SG失去了人们的详细动作,这导致了更差的检索结果。 所有的例子都显示出一个明显的趋势,即TDE对那些语义上有意义的关系要敏感得多,而不是对琐碎的偏见更敏感。

6. Conclusion

我们为有偏见的培训提供了无偏见的SGG的通用框架,这是解决SGG中严重偏见问题的第一项工作。 借助同盟间因果关系的力量,我们可以从良好的背景偏见中消除有害偏见,而传统的偏见方法(例如数据增强[9,11]和无偏见学习[29])则无法轻易识别出这种偏见。 我们通过使用因果图计算总直接效应(TDE)来实现无偏差,该因果图是训练任何SGG模型的路线图。 通过使用建议的Scene GraphDiagnosis工具包,我们无偏的SGG结果要比有偏的结果好得多。

附录

C. Quantitative Studies

表6给出了关系检索的完整结果,包括常规Recall @ K和采用的平均Re-call @ K [55,6],尽管在TDE上观察到常规Recall @ k的性能下降,但是 对原始图6中“减少的”谓词的详细分析表明,它是由更细粒度的谓词分类引起的。
关于所有三种模型,两个融合函数和基线vs.TDE的PredCls的详细谓词级别Recall @ 100,请参见图1213。14.令人印象深刻的是,改进性能的分配不再是冗长的,而图9中所示的是传统的去偏方法。 反正11不能超过数据集分布。 对于TDE,减少的谓词很少,主要是由于更细粒度的分类所致,我们可以观察到其子类谓词的显着改进。 请注意,与Reweight会盲目地损害所有常用谓词不同,拟议的TDE甚至可以改善前10个常用谓词中的一些,例如隐藏在boand之后的谓词,它们本身就是附近的子类。 进一步证明,建议的TDE的改进并非来自破解发行版。

D. Qualitative Studies定量分析

图15给出了更多的关系检索(RR)和零拍关系检索(ZSRR)结果,其中为每个图像选择了SGCls下的前10个关系。 我们可以看到,除了琐碎的关系问题之外,常规基准几乎无法区分不同的实体。 例如,在左下图中,相同的信号几乎在基线的每个极点处,而TDE结果对不同实体更敏感。 但是,TDE的问题之一是它过分强调了动作谓词。 它甚至使用保持极点和符号,而在这种情况下,基线所使用的谓词更为自然。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值