Zero-Shot Graph Relation Prediction through Commonsense Knowledge Integration

右边是我女神

已于 2022-10-27 09:42:49 修改

阅读量488

点赞数

分类专栏：我的项目文章标签：深度学习人工智能机器学习

于 2022-10-26 17:43:52 首次发布

本文链接：https://blog.csdn.net/weixin_46365033/article/details/127470310

版权

我的项目专栏收录该内容

6 篇文章 1 订阅

订阅专栏

Abstract

scene graph generation：介绍

图像中实体之间的关系预测是SGG中的重要步骤，但是目前的方法无法建模没见过的三元组。

本文认为这一问题的根源在于缺乏对常识的推理。因此，本文提出了集成常识的场景关系预测框架。

Introduction

场景图中的关系实例被定义为三元组<主语、关系、对象>。在给定两个被检测实体的情况下，根据学习到的关系模型的概率评分来预测他们之间存在的关系。然而，现有的大多数场景图生成模型依赖于大量的训练来记忆。

挑战：在zero-shot triplets上的性能下降

有两种类型的三元组，即训练数据中看到的三元组和未看到的三元组。

在训练数据中观察到三元组< man,eating, pizza >。如果这个三元组在测试阶段再次出现，那么它被称为非零射三元组。相比之下，一个三元组< child, eating, pizza >具有在训练数据中未观察到的新的实体-关系组合称为零次三元组。

请添加图片描述

动机：应用常识解决zero-shot relation prediction

常识知识是指关于世界的一般事实，它使人类能够在不熟悉的情况下进行推理。基于这一过程，本文从人类的角度出发，提出了整合常识性知识来缓解用之不竭的三元关系问题，提高SGG中零次关系预测的性能。

本文使用的常识知识来自Concept-Net，这是一个来自人群的语义知识图，包含关于现实世界概念的丰富结构化知识。

Insight 1: Neighbor commonsense reflects semantic similarity

在ConceptNet中，两个单独节点之间的邻居相似度表示他们在现实世界中的语义相似性。

例如，在图1中，child和man有许多共同的邻居，如fun,sleep,boy等，这表明child和man可能是相似的，因此与其他实体有类似的互动。如果模型在训练数据中看到一个三元组< man, eating, pizza >，那么由于知道child在语义上与m
an相似，它应该更容易从看不见但相似的图像中识别出< child, eating, pizza >这样的三元组。

请添加图片描述

因此可以通过对邻居重合度建模来检测两个实体之间的语义相似度。

Insight 2: Path commonsense reflects relation similarity

在ConceptNet中，节点之间由多条连续的边组成的路径连接。如上图所示，(child, pizza)和(man, pizza)的实体对共享共同的中间路径，如< RelatedTo, human, desire, food, related - edto >。这种中间路径的相似性表明，人与披萨之间的关系可能与孩子与披萨之间的关系相似。如果在训练数据中有三元组< man, eating, pizza >，那么模型应该倾向于在一个看不见但相似的图像中预测给定的关系(child,pizza)。根据上述思想，我们提议通过在ConceptNet中建模两个实体与其他实体对的路径重合来推断两个实体之间的关系。

方法：Scene Graph Relation Prediction through CommonsenseKnowledge Integration

本文提出了一个新的框架，该框架将外部常识知识集成到SGG中，用于零镜头三连词的关系预测

Motivating Analysis

Ignorance yet Importance of Zero-Shot Triplets

由于对zero-shot settings的忽视，使得现有的方法对zero-shot triplets的关系预测效果显著下降。下表显示了三个最先进的模型在Visual Genome (SGG最广泛使用的基准数据集)上的性能。注意，这里使用的是平均召回，这是triplet- wisercall的平均结果。在不同k值下，non-zero-shot triplets的平均召回率几乎是zero-shot triplets的两倍，这表明在zero-shot关系预测上表现出了令人担忧的恶化。

然而，这些zero-shot triplets代表了非常常见的关系，如< child, on, bus >，实际上比一些non-zero-shot triplets，如< bear, wearing, tie >更常见。对于< bear, wears, tie >等特定的三连词，由于它们出现在训练数据中，并被模型记忆，因此其表现要好得多，但由于缺乏泛化能力，这种记忆在现实中的效用相当有限。

请添加图片描述

本研究将重点放在整合来自外部资源的常识知识，以提高zero-shot triplets的关系预测性能。具体地说，我们将ConceptNet作为来自其他替代方案的外部知识资源，因为它对概念的广泛覆盖和伴随的概念语义嵌入是有用的功能[13]。在ConceptNet中，每个概念(单词或短语)被建模为一个节点，每条边表示两个概念之间的关系。由于其广泛的覆盖范围，我们能够将Visual Genome中的每个实体类链接到ConceptNe中的一个节点。

Commonsense Knowledge from ConceptNet Neighbors

Visual Genome中类之间的语义相似度可以看作是它们在ConceptNet中对应节点的邻域相似度，邻域相似度可以用它们的邻域Jaccard相似度来计算：
请添加图片描述
两个节点的邻居的交集数量比上并集数量。

为了验证在conceptnet中使用邻域相似度作为VIsual Genome语义相似度度量的有效性，我们计算了视觉基因组中观察最多的150个类的每对之间的相似度，并将它们的相似度按降序排列的结果。

请添加图片描述

Commonsense Knowledge from ConceptNet Paths

在ConceptNet中，除了来自邻居的一跳信息外，由多条边组成的路径还可以进一步编码丰富的多跳信息。具体来说，如果两对实体在ConceptNet中由许多相同的路径连接，它们更有可能共享类似的关系。为了研究ConceptNet上节点对之间的这种路径关系，我们将中路径定义为:

MidPath：不包含两端节点的路径。

例如，给定节点people和street之间的路径< people, RelatedTo,automobile, AtLocation, street >，对应的MidPath为< RelatedTo,automobile, AtLocation>。

COACHER

请添加图片描述

Backbone Scene Graph Generation Pipeline

场景图生成管道包含了三个部分：

object detection：使用Faster R-CNN作为检测器，从图中得到一系列的候选框B、类向量D和视觉嵌入E。
label refinement：对D得到的类向量细化，为每个区域生成一个实体类的one-hot向量，用于关系预测。
relation prediction：在得到细化后的类标签后，本文使用他们来进一步生成上下文嵌入：

首先得到背景向量，然后得到细化的节点类别预测向量，接着得到上下文向量，最后得到边向量。依靠边向量，就能得到边类别预测向量。这一过程大概如下图所示：

请添加图片描述

采用LSTM的本质也是希望能够建模上下文信息。

Commonsense Integrator

常识知识的整合是通过外部资源的计算来实现的。具体来说，我们在这里使用ConceptNet作为外部常识知识的来源。概念网是一种知识图谱，它将自然语言中的单词和短语用标记的边连接起来。它是由丰富的资源如维基词典和WordNet构建的。通过这些资源的组合，ConceptNet包含了超过2100万个边和超过800万个节点，覆盖了Visual Genome中的所有实体类。此外，它还为每个节点提供语义嵌入作为语义特征。在这里，我们开发了三种类型的集成器来从ConceptNet生成常识嵌入。

Neighbor integrator

请添加图片描述
检测到的实体对应类别的邻居嵌入为邻居向量的平均。一对实体的编码如下所示：

Path integrator

请添加图片描述
从ConceptNet中找出路径，然后按照跳数分类。每一跳内都形成了一张图。

经典的序列模型如LSTM不能有效地处理非常短的路径。受用于图表示学习的消息传递网络的启发[2,16]，我们设计了一种神经消息传递机制来学习每一组l-hop路径的表示。最后将它们结合起来，形成基于路径的常识嵌入。

Fused integrator

为了融合基于邻居和基于路径的常识知识，我们通过初始化的方式将基于邻居的知识注入到基于路径的知识中 $MSG_v^0(v)=MEAN(F_v,e_{nb}^v)$ 。

Experiments

实验设置

Original whole dataset——Visual Genome

斯坦福大学李飞飞组于2016年发布的大规模图片语义理解数据集，他们希望该数据集能像ImageNet那样推动图片高级语义理解方面的研究。

其主要由四个组成部分：

Region Description：图片被划分为一个个region，每个region都有与其对应的一句自然语言描述；
Region Graph：每个region中的object、attribute、relationship被提取出来构成局部的Scene Graph；
Scene Graph：将图中的每一个region合并成一个全局Scene Graph；
QA；

原来的整个数据集。对于场景图的生成，我们使用Visual Genome数据集(SGG的常用基准)来训练和测试我们的框架。该数据集包含108,077张图像，其中类和关系的数量分别为75,729和40,480。然而，92%的关系没有超过10次，因此，我们遵循Visual Genome中广泛使用的拆分策略，选择最频繁的150个对象类和50个关系作为代表。此外，我们使用70%的图像及其对应的实体和关系作为训练集，剩下的30%的图像留作测试。从训练集中分离出一个5k规模的验证集用于参数调优。

Zero-shot amplified dataset

为了进一步研究模型在更严格的零次设置下的泛化能力，我们通过构建另一个零次放大数据集来减少模型在训练过程中可以利用的信息。这是通过简单地从训练数据中删除包含较少常见关系的图像来实现的。结果，后30个公共关系的三元数减半，而前20个公共关系的三元数基本保持不变。这样，我们增加了模型的难度，特别是在预测零次三元组的关系时。

Compared algorithms

NeuralMotifs（NM）：SGG 任务的baseline；
NM+：是SGG目前唯一利用外部知识的方法，也是最接近我们的方法。该方法主要包括知识细化和图像重建两个新部分；
TDE：是目前最先进的场景图形生成方法。这项工作也是VisualGenome上第一个报告零次性能的工作，但它并不需要努力去改进它；
CSK-N：是基于我们的框架的基线，在没有视觉信息的情况下进行预测。给定一对实体，我们只使用基于邻居的常识知识嵌入来预测它们的关系。

Evaluation metrics

Recall@K：对于每个样本，只要置信度前K的标签中有正确的就算成功召回。

zR@K：Recall@K在零次子集中的得分。

右边是我女神

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
Zero-Shot Graph Relation Prediction through Commonsense Knowledge Integration

介绍图像中实体之间的关系预测是SGG中的重要步骤，但是目前的方法无法建模没见过的三元组。本文认为这一问题的根源在于缺乏对常识的推理。因此，本文提出了集成常识的场景关系预测框架。
复制链接

扫一扫