SGG Trans[Attribution:Contextual Translation Embedding for SGG

Contextual Translation Embedding for VisualRelationship Detection and Scene GraphGeneration


2020新,有属性预测。可学

摘要

实体之间的关系在图像理解中起着核心作用。由于建模(主语、谓语、宾语)关系三元组的复杂性,开发一种不仅可以识别可见关系,而且可以泛化到不可见情况的方法至关重要。受先前提出的视觉翻译嵌入模型或 VTransE 的启发[1],我们提出了一种上下文增强的翻译嵌入模型,可以捕获常见和罕见的关系。先前的 VTransE 模型将实体和谓词映射到低维嵌入向量空间,其中谓词被解释为主体和对象的边界框区域的嵌入特征之间的平移向量。我们的模型还结合了由主体和客体联合的边界框捕获的上下文信息,并学习由约束谓词«union(subject,object) ́subject ́object 引导的嵌入。在对多个具有挑战性的基准的综合评估中,我们的方法优于以前的基于翻译的模型,并且在从小规模到大规模数据集,从常见到以前看不见的关系的一系列设置中接近或超过了最先进的水平。它还为最近引入的场景图生成任务取得了可喜的成果

2. related work

正如引言中所述,我们也将我们的uvtrans method应用于场景图形生成。大多数场景图生成方法将节点周围的上下文视为有价值的内容,并应用上下文传播机制在候选场景图上的相邻节点之间交换信息。在xu。et al.[40]中,创建了两个子图,分别表示对象和关系。

我们应用我们的方法在VisualGenome和Open Images数据集上生成场景图,以一种非常简单的方式:我们首先运行对象检测器来找到场景图的节点,然后使用UVTransE来找到关系。即使我们是独立地预测每一种关系,我们也会表明我们的结果与那些上下文感知的方法相比是有竞争力的。

3. model

在我们的工作中,我们将VRD任务分为两个阶段。在第一阶段,我们使用现成的目标检测模型,如faster R-CNN[5],来预测图像中的目标边界框和每类的可信度。在第二阶段,我们学习一个模型来对所有可能的三联体,即主客体框,谓词或关系标签,以及对象框进行评分。接下来,我们将描述UVTransE关系评分模型,如图1所示
在这里插入图片描述
我们的UVTransE视觉关系检测模型的概述。给定一幅图像,Faster R-CNN首先用于检测物体。对于每对被检测对象,提取外观和空间特征并输入视觉模块,该模块计算UVTransE嵌入:联合(主语+宾语)。UVTransE的谓词嵌入输出可以选择性地发送到Bi-GRU语言模型。最后,三联体(s,p,o)根据视觉、语言和物体检测模块的得分进行排序。

3.1 Union Visual Translation Embedding

读英文,懒得打字

3.2 语言模块

与之前的工作[11],[13],[35],[39]类似,我们将uvtranse与一种语言模型相结合,这种语言模型有助于对抗数据稀疏性,并学习对象类对之间的关系。我们的语言模块是一个双向GRU (Bi-GRU)[43],它连续三个步骤接收主题、谓词和对象的编码,连接隐藏状态,并将它们用于谓词分类。进一步的细节将在3.3中给出。我们的语言模块ellangis是一个标准的多类交叉熵损失鼓励它产生基本真实谓词。

3.3 Implementation Details

具体来说,我们的管道的阶段是:目标检测,从边界框中提取外观和位置特征,UVTransE关系嵌入,语言模块(可选),关系评分。下面将描述每个组件的实现

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值