SGG Trans[Attribution:Contextual Translation Embedding for SGG

最新推荐文章于 2024-05-04 14:53:57 发布

Koihoo

最新推荐文章于 2024-05-04 14:53:57 发布

阅读量276

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/weixin_44892610/article/details/117405102

版权

深度学习同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

SGG

9 篇文章 0 订阅

订阅专栏

Contextual Translation Embedding for VisualRelationship Detection and Scene GraphGeneration

摘要
2. related work
3. model

2020新，有属性预测。可学

摘要

实体之间的关系在图像理解中起着核心作用。由于建模（主语、谓语、宾语）关系三元组的复杂性，开发一种不仅可以识别可见关系，而且可以泛化到不可见情况的方法至关重要。受先前提出的视觉翻译嵌入模型或 VTransE 的启发[1]，我们提出了一种上下文增强的翻译嵌入模型，可以捕获常见和罕见的关系。先前的 VTransE 模型将实体和谓词映射到低维嵌入向量空间，其中谓词被解释为主体和对象的边界框区域的嵌入特征之间的平移向量。我们的模型还结合了由主体和客体联合的边界框捕获的上下文信息，并学习由约束谓词«union(subject,object) ́subject ́object 引导的嵌入。在对多个具有挑战性的基准的综合评估中，我们的方法优于以前的基于翻译的模型，并且在从小规模到大规模数据集，从常见到以前看不见的关系的一系列设置中接近或超过了最先进的水平。它还为最近引入的场景图生成任务取得了可喜的成果

2. related work

正如引言中所述，我们也将我们的uvtrans method应用于场景图形生成。大多数场景图生成方法将节点周围的上下文视为有价值的内容，并应用上下文传播机制在候选场景图上的相邻节点之间交换信息。在xu。et al.[40]中，创建了两个子图，分别表示对象和关系。
…
我们应用我们的方法在VisualGenome和Open Images数据集上生成场景图，以一种非常简单的方式:我们首先运行对象检测器来找到场景图的节点，然后使用UVTransE来找到关系。即使我们是独立地预测每一种关系，我们也会表明我们的结果与那些上下文感知的方法相比是有竞争力的。

3. model

在我们的工作中，我们将VRD任务分为两个阶段。在第一阶段，我们使用现成的目标检测模型，如faster R-CNN[5]，来预测图像中的目标边界框和每类的可信度。在第二阶段，我们学习一个模型来对所有可能的三联体，即主客体框，谓词或关系标签，以及对象框进行评分。接下来，我们将描述UVTransE关系评分模型，如图1所示
在这里插入图片描述
我们的UVTransE视觉关系检测模型的概述。给定一幅图像，Faster R-CNN首先用于检测物体。对于每对被检测对象，提取外观和空间特征并输入视觉模块，该模块计算UVTransE嵌入:联合(主语+宾语)。UVTransE的谓词嵌入输出可以选择性地发送到Bi-GRU语言模型。最后，三联体(s,p,o)根据视觉、语言和物体检测模块的得分进行排序。

3.1 Union Visual Translation Embedding

读英文，懒得打字

3.2 语言模块

与之前的工作[11]，[13]，[35]，[39]类似，我们将uvtranse与一种语言模型相结合，这种语言模型有助于对抗数据稀疏性，并学习对象类对之间的关系。我们的语言模块是一个双向GRU (Bi-GRU)[43]，它连续三个步骤接收主题、谓词和对象的编码，连接隐藏状态，并将它们用于谓词分类。进一步的细节将在3.3中给出。我们的语言模块ellangis是一个标准的多类交叉熵损失鼓励它产生基本真实谓词。

3.3 Implementation Details

具体来说，我们的管道的阶段是:目标检测，从边界框中提取外观和位置特征，UVTransE关系嵌入，语言模块(可选)，关系评分。下面将描述每个组件的实现

Koihoo

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SGG Trans[Attribution:Contextual Translation Embedding for SGG

Contextual Translation Embedding for VisualRelationship Detection and Scene GraphGeneration摘要2. related work3. model3.1 Union Visual Translation Embedding3.2 语言模块3.3 Implementation Details2020新，有属性预测。可学摘要实体之间的关系在图像理解中起着核心作用。由于建模（主语、谓语、宾语）关系三元组的复杂性，开发一
复制链接

扫一扫

专栏目录