【论文阅读笔记】One-Shot Relational Learning for Knowledge Graphs - EMNLP 2018

卷卷0v0

已于 2024-03-04 16:37:57 修改

阅读量1k

点赞数 20

分类专栏：论文阅读知识图谱文章标签：论文阅读知识图谱神经网络

于 2023-12-05 23:03:34 首次发布

本文链接：https://blog.csdn.net/weixin_46153222/article/details/134806527

版权

论文阅读同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

知识图谱

2 篇文章 0 订阅

订阅专栏

知识图谱 --> 知识补全 --> 长尾问题 --> 少样本学习 --> 元学习

基于度量的方法【GMatching】（本文）
基于优化的方法【MetaR】

Abstract

为了进一步扩大知识图谱的覆盖范围，以往的知识图补全研究通常需要为每个关系提供大量的训练实例。然而，我们观察到长尾关系实际上在知识图谱中更常见，并且这些新添加的关系通常没有很多已知的三元组用于训练。在这项工作中，我们的目标是在只有一个训练实例可用的具有挑战性的环境下预测新事实。我们提出了一种one-shot关系学习框架，它利用嵌入模型提取的知识，并通过考虑学习的嵌入和一跳图结构来学习匹配度量。根据经验，我们的模型比现有嵌入模型产生了相当大的性能改进，并且在处理新添加的关系时也无需重新训练嵌入模型。研究背景 + 研究目的 + 研究内容 + 研究结果

1 Introduction

尽管知识图谱规模很大，但众所周知它们非常不完整。为了自动完成知识图谱，人们进行了大量的研究工作来构建关系学习模型，该模型可以通过学习现有的三元组来推断缺失的三元组。这些方法探索三元组或路径模式的统计信息，以推断现有关系的新事实；并在各种公共数据集上取得了可观的性能。现有工作

然而，以前的模型使用的数据集（例如 FB15k、WN18）大多只涵盖知识图谱中的常见关系。对于更实际的场景，我们认为所需的 KG 补全模型应该处理 KG 的两个关键属性。首先，如图1所示，很大一部分KG关系实际上是长尾的。换句话说，它们的实例很少。但直观上来说，一个关系的训练三元组越少，KG 补全技术就越有用。因此，模型能够完成有限数量的三元组的关系至关重要。然而，现有的研究通常假设所有关系都有足够的训练三元组，这限制了它们在稀疏长尾关系上的有用性。研究问题1：数据存在长尾问题
维基数据中关系频率的直方图。有很大一部分关系只有几个三元组。
其次，为了捕获最新的知识，现实世界的知识图谱通常是动态的，并且在任何特定时刻都在不断发展。每当获得新知识时，就会添加新的关系。如果一个模型只需少量示例就可以预测新的三元组，那么就可以节省大量的人力。然而，为了预测目标关系，以前的方法通常依赖于这些关系的良好学习的表示。在动态场景中，在有限的训练实例下，新关系的表示无法得到充分训练，因此当前模型适应新关系的能力也受到限制。研究问题2：关系需要动态更新，添加新关系时如何更快、更少消耗资源

与以前的方法相比，我们提出了一种仅依赖于实体嵌入和局部图结构的模型。我们的模型旨在学习一种匹配度量，该度量可用于在给定一个参考三元组的情况下发现更多相似的三元组。可学习的度量模型基于有效编码实体的一跳邻居的排列不变网络，以及允许多步匹配的循环神经网络。经过训练，模型将能够对任何关系进行预测，而现有方法通常需要微调以适应新的关系。通过两个新构建的数据集，我们表明我们的模型可以在一次性链接预测任务上比各种嵌入模型取得一致的改进。创新点 + 贡献

总之，我们的贡献有三方面：

我们首次在链接预测任务中考虑长尾关系，并将问题表述为少样本关系学习；
我们提出了一种有效的one-shot关系数据学习框架，它比各种基于嵌入的方法具有更好的性能；
我们还提出了两个新构建的数据集，用于完成一次性知识图谱的任务。

2 Related Work

关系学习的嵌入模型

人们已经开发了各种模型来对连续向量空间中的关系知识图谱进行建模并自动推断缺失的链接。 RESCAL是使用张量运算对关系进行建模的早期工作之一。Bordes等人提出对一维向量空间中的关系进行建模。沿着这条研究路线，人们提出了更先进的模型，例如 DistMult、ComplEx 和 ConvE。这些基于嵌入的模型通常假设所有关系和实体都有足够的训练实例，并且不关注那些稀疏符号。最近，人们提出了几种模型，通过利用文本描述来处理看不见的实体。与这些方法相反，我们的模型处理长尾或新添加的关系，并专注于一次性关系学习，没有任何外部信息，例如实体或关系的文本描述。本文提出的模型未涉及到外部知识，将这部分留给了future work。

小样本学习

最近基于深度学习的小样本学习方法分为两大类：

基于度量的方法，该方法尝试从一组训练任务中学习可概括的指标和相应的匹配函数。此类中的大多数方法采用深度孪生网络中提出的通用匹配框架。

一个例子是匹配网络，它通过将输入示例与小型标记支持集进行比较来进行预测.

基于元学习器的方法，旨在学习模型参数的优化（通过输出参数更新或直接预测模型参数）给定少数样本示例的梯度。

一个例子是基于 LSTM 的元学习器，它学习随机梯度每个维度的步长。除了上述类别之外，还有一些其他类型的少样本学习算法，例如贝叶斯程序归纳，它将概念表示为简单的程序，可以最好地解释贝叶斯准则下观察到的示例。

之前的小样本学习研究主要集中在视觉和模仿学习领域。在语言领域，Yu 等人提出了一种基于多度量的文本分类方法。据我们所知，这项工作是第一个关于知识图的小样本学习的研究。

3 Background

3.1 问题定义

知识图 $\mathcal G$ 表示为三元组 $⊆\mathcal E ×\mathcal R ×\mathcal E$ 的集合， $\mathcal E$ 和 $\mathcal R$ 是实体集和关系集。知识图补全的任务为：

预测两个现有实体之间未见的关系 r： $(h, ?, t)$
在给定头实体和查询关系的情况下预测尾实体 t： $(h, r, ?)$ 。

由于我们的目的是推断新添加或现有的长尾关系中未见的事实，因此我们重点关注后一种情况。与之前的工作通常假设查询关系有足够的三元组可用于训练相比，这项工作研究了只有一个训练三元组可用的情况。更具体地说，目标是在仅给出一个示例三元组 $h_0, r, t_0)$ 的情况下，将真实尾部实体 $t_{true}$ 的排名高于其他候选实体 $t ∈ C_{h,r}$ 。候选集是使用实体类型约束构建的。

当预测关系 r 的新事实时，作者只考虑一组封闭的实体，即在测试过程中没有未见过的实体。对于在测试期间可能出现新实体的开放世界设置，通常需要外部信息，例如有关这些实体的文本描述，作者将其留给未来的工作。

3.2 One-Shot 学习设置

我们工作的目标是学习一种可用于通过一次性示例预测新事实的指标。遵循标准的一次性学习设置，我们假设可以访问一组训练任务。在我们的问题中，每个训练任务对应一个 KG 关系 $r \in R$ ，并且有自己的训练/测试三元组： $T_r = \{D_r^{train} , D_r^{test}\}$ 。该任务集通常表示为元训练集 $\mathbb T_{meta−train}$ 。元训练集

为了模拟评估时的one-shot预测，每个 $D^{train}_r$ 中只有一个三元组 $h_0, r, t_0)$ 。
$D^{test}_r = {(h_i, r, t_i, C_{h_i,r})}$ ，由 r 的测试三元组和每个查询 $h_i, r)$ 的真实尾部实体 $t_i$ 以及相应的尾部实体候选组成 $C_{h_i,r} = \{t_{ij}\}$ ，其中每个 $t_{ij}$ 是 $\mathcal G$ 中的一个实体。因此，可以通过给定测试查询 $h_i, r)$ 和 $D^{train}_r$ 中的标记三元组的情况下，对候选集 $C_{h_i,r}$ 进行排名来测试该集合上的度量模型。
我们将任意排名损失函数表示为 $\mathcal l_\theta(h_i, r, t_i|C_{h_i,r}, D^{train}_r )$ ，其中 θ 表示我们的度量模型的参数。该损失函数指示度量模型在元组 $h_i, r, t_i, C_{h_i,r})$ 上的工作情况，同时仅观察来自 $D^{train}_r$ 的one-shot数据。训练度量模型的目标，即元训练目标，因此变为：

其中 $T_r$ 是从元训练集 $\mathbb T_{meta−train}$ 中采样的，并且 $|D^{test}_r |$ 表示 $|D^{test}_r |$ 中元组的数量。

一旦训练完成，我们就可以使用该模型对新的关系 r′ ∈ R′ 进行预测，这在文献中称为元测试步骤。这些元测试关系在元训练中是看不到的，即 R′ ∩ R = φ。每个元测试关系 r’ 还具有其自己的一次性训练数据 $D^{train}_{r'}$ 和测试数据 $D^{test}_{r'}$ ，其定义方式与元训练中相同。这些元测试关系形成元测试集 $\mathbb T_{meta−test }$ 。元测试集

此外，我们遗漏了 $\mathbb T_{meta−train}$ 中的一个关系子集作为元验证集 $\mathbb T_{meta−validation}$ 。由于一次性学习的假设，元测试关系不像传统机器学习设置那样具有验证集。否则，度量模型在元测试期间实际上会看到多个一次性标记数据，从而违反了一次性假设。元验证集

最后，我们假设该方法可以访问背景知识图 $\mathcal G'$ ，它是 $\mathcal G$ 的子集，删除了 $\mathbb T_{meta−train}$ 、 $\mathbb T_{meta−validation}$ 和 $\mathbb T_{meta−test }$ 中的所有关系。

4 Model

在本节中，我们描述了所提出的相似性度量学习模型以及用于训练模型的相应损失函数。
在这里插入图片描述

我们提出的模型的核心是相似函数 $t')|\mathcal G')$ 。因此，对于任何查询关系 r，只要有一个已知事实 $h_0, r, t_0)$ ，模型就可以预测测试三元组 ${(h_i, r, t_{ij})|t_{ij} ∈ C_{h_{i,r}} \}$ 的可能性，基于每个 $h_i, t_{ij})$ 和 $h_0, t_0)$ 之间的匹配分数。上述匹配函数的实现涉及两个子问题：（1）实体对的表示； (2)两个实体对表示之间的比较函数。我们的整体模型如图 2 所示，分别通过两个主要组件处理上述两个问题：

邻居编码器（图2b），旨在利用局部图结构更好地表示实体。通过这种方式，模型可以利用 KG 为实体对中的每个实体提供的更多信息。
匹配处理器（图2c），从邻居编码器获取任意两个实体对的向量表示；然后在两个实体对之间执行多步匹配，并输出一个标量作为相似度得分。

4.1 邻居编码器

该模块旨在增强知识图中每个实体及其局部连接的表示。

尽管 KG 嵌入模型中的实体嵌入已经编码了关系信息，但之前的工作表明，对结构模式（例如路径）进行显式建模通常有利于关系预测。鉴于此，我们建议使用邻居编码器将图结构合并到我们的度量学习模型中。为了从结构信息中受益，同时保持效率以轻松扩展到现实世界的大规模知识图谱，我们的邻居编码器仅考虑实体的局部连接，即一跳邻居。

对于任何给定的实体 e，其局部连接形成一组（关系，实体）元组。如图 2a 所示，对于实体 Leonardo da Vinci，此类元组之一是（职业，画家）。我们将该邻居集称为 $\mathcal N_e = \{(r_k, e_k)|(e, r_k, e_k) ∈ \mathcal G'\}$ 。邻居编码器的目的是对 Ne 进行编码并输出一个向量作为 e 的潜在表示。因为这是一个对不同大小的集合进行编码的问题，所以我们希望编码函数能够（1）对排列不变，并且（2）对邻居集的大小不敏感。受（Zaheer et al., 2017）结果的启发，我们使用以下满足上述属性的函数 f：
在这里插入图片描述
其中 C{rk,ek} 是关系实体对 (rk, ek) 的特征表示，σ 是激活函数。在本文中，我们设置 σ = tanh，它在 $\mathbb T_{meta−validation}$ 上实现了最佳性能。

为了将每个元组 (rk, ek) ∈ Ne 编码为 C{rk,ek} ，我们首先使用维度为 d 的嵌入层 emb （可以使用现有的基于嵌入的模型进行预训练）来获取 rk 和 ek 的向量表示：得到嵌入表示
在这里插入图片描述

Dropout在这里应用于向量 vrk 、 vek 以实现更好的泛化。然后，我们应用前馈层来编码该元组内的交互：
在这里插入图片描述
其中 $W_c ∈ R^{d×2d}$ ， $b_c ∈ R^d$ 是要学习的参数，⊕表示串联。

为了在训练期间启用批处理，我们手动指定邻居的最大数量，并使用全零向量作为“虚拟”邻居。尽管不同的实体具有不同的度（邻居数量），但度分布通常非常集中，如图 3 所示。我们可以轻松找到适当的界限作为批量实体组的最大邻居数量。批处理batch
在这里插入图片描述

我们在这里提出的邻居编码器模块类似于RGCN（Schlichtkrull et al., 2017），因为我们也使用共享内核 {Wc, bc} 来编码不同实体的邻居。但与他们的模型在整个图上运行并执行多个步骤的信息传播不同，我们只对实体的局部图进行编码并执行一步传播。这使我们能够轻松地将我们的模型应用于维基数据等大规模知识图谱。此外，他们的模型也不适用于预先训练的图嵌入。

4.2 匹配处理器

给定邻居编码器模块，现在我们讨论如何基于循环匹配处理器进行有效的相似性匹配。
通过将 $(\mathcal N_e)$ 应用于参考实体对 $h_0, t_0)$ 和任何查询实体对 $h_i, t_{ij})$ ，我们得到每个实体对的两个邻居向量： $(\mathcal N_{h_0}); f(\mathcal N_{t_0})]和[f(\mathcal N_{h_i})； f(\mathcal N_{t_{ij}})]$ 。为了获得可用于对其他候选者中的 $h_i, t_{ij})$ 进行排名的相似度得分，我们可以简单地将每对中的 $(\mathcal N_h)$ 和 $(\mathcal N_t)$ 连接起来形成单个对表示向量，并计算对之间的余弦相似度。然而，这个简单的度量模型被证明太浅，并且不能提供良好的性能。为了扩大模型的容量，我们利用基于 LSTM的循环“处理”块来执行多步匹配。每个流程步骤定义如下：
在这里插入图片描述

其中 $L STM (x, [h, c])$ 是一个标准 LSTM 单元，具有输入 x、隐藏状态 h 和单元状态 c，并且 $(\mathcal N_{h_0}) ⊕ f (\mathcal N_{t_0} )$ ， $(\mathcal N_{h_i} ) ⊕ f (\mathcal N_{t_{ij}})$ 是参考对和查询对的串联邻居向量。经过K个处理步骤2后，我们使用 $score_K$ 作为查询和支持实体对之间的最终相似度得分。对于每个查询 $h_i, r, ?)$ ，通过将 $h_i, t_{ij})$ 与 $h_0, t_0)$ 进行比较，我们可以获得每个 $t_{ij} ∈ C_{h_{i,r}}$ 的排名分数。

4.3 损失函数和训练

对于查询关系 r 及其参考/训练三元组 $h_0, r, t_0)$ ，我们收集一组正（真）查询三元组 $\{(h_i, r, t_i^+ )|(h_i, r, t_i^+ ) ∈\mathcal G \}$ 并通过污染尾部实体构造另一组负（假）查询三元组 $\{(h_i, r, t_i^- )|(h_i, r, t_i^- )\notin \mathcal G \}$ 。遵循之前的基于嵌入的模型，我们使用铰链损失函数来优化我们的模型：
在这里插入图片描述

其中 $score^+_θ$ 和 $score^−_θ$ 是通过使用我们的度量模型将查询三元组 $h_i, r, t_i^+ /t_i^-)$ 与参考三元组 $h_0, r, t_0)$ 进行比较而计算出的标量，并且边距 $γ$ 是超参数待调整。对于每个训练集，我们首先从元训练集 $\mathbb T_{meta−training}$ 中采样一个任务/关系 $T_r$ 。然后，从 $T_r$ 中的所有已知三元组中，我们采样一个三元组作为参考/训练三元组 $D^{train}_r$ ，并采样一批其他三元组作为正查询/测试三元组 $D^{test}_r$ 。训练过程的细节如算法 1 所示。我们的实验将在下一节中讨论。
在这里插入图片描述

5 Experiments

5.1 数据集

在这里插入图片描述

现有的知识图谱完成基准，例如 FB15k-237和 YAGO3-10都是现实世界知识图谱的小子集。这些数据集在训练和测试期间考虑同一组关系，并且通常为每个关系包含足够的训练三元组。为了构建用于一次性学习的数据集，我们回到原始知识图谱并选择那些没有太多三元组的关系作为一次性任务关系。我们将其余关系称为背景关系，因为它们的三元组为我们匹配实体对提供了重要的背景知识。

我们的第一个数据集基于 NELL，这是一个通过阅读网络不断收集结构化知识的系统。我们获取最新的转储并删除那些逆关系。我们选择少于 500 但多于 50 个三元组的关系作为一次性任务。为了表明我们的模型能够在大规模 KG 上运行，我们遵循类似的过程基于 Wikidata 构建另一个更大的数据集。数据集统计数据如表 1 所示。请注意，就实体和三元组的数量而言，Wiki-One 数据集比任何其他基准数据集大一个数量级。对于 NELL-One，我们使用 51/5/11 任务关系进行训练/验证/测试。对于 WikiOne，划分比例为 133:16:34。

5.2 实施细节

在我们的实验中，我们考虑以下基于嵌入的方法：RESCAL、TransE 、DistMult和 ComplEx。在评估现有嵌入模型时，在训练过程中，我们不仅使用背景关系的三元组，还使用训练关系的所有三元组以及这些验证/测试关系的一次性训练三元组。然而，由于所提出的度量模型不需要查询关系的嵌入，因此我们仅包含用于嵌入训练的背景关系的三元组。

由于 TransE 和 DistMult 使用一维向量来表示实体和关系，因此它们可以直接在我们的匹配模型中使用。
对于 RESCAL，由于它使用矩阵来表示关系，因此我们对这些矩阵采用均值池来获得一维嵌入。
对于 ComplEx 模型，我们使用实部和虚部的串联。
我们模型的超参数是根据验证任务集进行调整的，可以在附录中找到。

除了上述嵌入模型之外，还有一种更新的方法（Dettmers et al., 2017）将卷积应用于模型关系，并在多个基准测试中实现了最佳性能。对于每个查询（h，r，？），他们的模型枚举整个实体集以获得用于训练的正三元组和负三元组。我们发现，这种训练范例在处理大型实体集时需要大量计算资源，并且无法扩展到现实世界的知识图谱，例如拥有数百万个实体的 Wikidata4。出于可扩展性的考虑，我们的实验仅考虑使用负采样进行训练的模型。

5.3 结果

在这里插入图片描述
我们方法的主要结果如表 2 所示。我们将我们的方法表示为“GMatching”，因为我们的模型经过训练以匹配本地图形模式。我们使用平均倒数排名（MRR）和 Hits@K 来评估不同的模型。我们可以看到，我们的方法对这些一次性关系的各种嵌入模型产生了一致的改进。在更大的 Wiki-One 数据集上，改进更为显着。为了研究我们模型的学习能力，我们还尝试使用随机初始化的嵌入来训练我们的度量模型。令人惊讶的是，尽管结果比带有预训练嵌入的度量模型差，但它们仍然优于基线嵌入模型。这表明，通过将邻居实体合并到我们的模型中，许多关系和实体的嵌入实际上以有效的方式得到更新，并为我们的模型对测试数据进行预测提供有用的信息。

值得注意的是，一旦训练完毕，我们的模型就可以用来预测任何新添加的关系，而无需进行微调，而现有模型通常需要重新训练才能处理这些新添加的符号。在大型现实世界知识图谱上，这种重新训练过程可能很慢并且计算成本很高。

关于模型选择的备注

鉴于存在各种KG嵌入模型，一项有趣的实验是将模型选择纳入超参数调整中，并选择最佳的验证模型进行测试。

如果我们将 KG 嵌入和度量学习作为两种方法进行比较，则模型选择过程的结果可以用作“最终”测量进行比较。例如，基线 KG 嵌入在 RESCAL 上实现了 Wiki-One 上的最佳 MRR (11.9%)，因此我们报告相应的测试 MRR (7.2%) 作为 KG 嵌入方法的最终模型选择结果。这样，在表2的上半部分，我们根据验证性能选择最佳的KG嵌入方法。结果用下划线突出显示。同样，我们在底部选择最佳的度量学习方法。

从这个角度来看，我们基于度量的方法也大大优于 KG 嵌入。以MRR为例，所选的度量模型在NELL-One上达到17.1%，在Wiki-One上达到20.0%；而KG嵌入的结果是9.3%和7.2%。改善幅度分别为 7.8% 和 12.8%。

5.4 邻居编码器的分析

由于我们的模型通过对邻居进行编码来利用实体的局部图结构，因此我们尝试通过限制邻居的最大数量来研究邻居集的影响。如果真实邻居集的大小大于最大限制，则通过随机采样选择邻居。图 4 显示了不同设置的学习曲线。这些曲线基于在验证集上计算的 Hits@10。我们发现，为每个实体编码更多的邻居通常会带来更好的性能。我们还观察到，最多编码 40 个邻居的模型实际上比仅编码 30 个邻居的模型产生的性能更差。我们认为潜在的原因是，对于某些实体对，存在一些不相关的局部连接，并为模型提供了噪声信息。

5.5 消融研究

在这里插入图片描述
我们使用在 NELL-One 数据集上实现最佳 Hits@10 的模型进行消融研究。结果如表 4 所示。我们在验证集和测试集上使用 Hits@10 进行比较，因为超参数是使用此评估指标选择的。我们可以看到匹配处理器和邻居编码器在我们的模型中都发挥着重要作用。另一个重要的观察结果是，缩放因子 1/Ne 对于相邻编码器非常重要。在没有缩放的情况下，与简单的基于嵌入的匹配相比，邻居编码器实际上给出了更糟糕的结果。

5.6 不同关系上的表现

在这里插入图片描述

在测试各种模型时，我们观察到不同关系的结果实际上具有很高的方差。表 3 显示了由我们的最佳度量模型 (GMatching-ComplEx) 及其相应的嵌入方法生成的 NELL-One 的分解结果。作为参考，我们还报告了嵌入模型在标准训练设置下的性能，其中 75% 的三元组（而不是只有一个）用于训练，其余的用于测试。我们可以看到，与较小候选集的关系通常更容易，我们的模型甚至可以比在标准设置下训练的嵌入模型表现得更好。对于某些关系，例如运动员InjuredHisBodypart，其涉及的实体在KG中的连接很少。不出所料，对这类关系的一次性学习是相当具有挑战性的。对于所有模型来说，与大量（>3000）候选人的关系都是具有挑战性的。即使对于具有更多训练三元组的嵌入模型，在某些关系上的性能仍然非常有限。这表明知识图谱补全任务还远未得到解决。

6 Conclusion

本文介绍了一种一次性关系学习框架，可用于预测知识图谱中长尾关系的新事实。我们的模型利用实体的局部图结构并学习可微的度量来匹配实体对。与通常需要微调以适应新关系的现有方法相比，我们训练的模型可以直接用于预测任何未见过的关系，并且在一次性设置中也取得了更好的性能。我们未来的工作可能会考虑合并外部文本数据，并增强我们的模型，以便在少样本学习案例中更好地利用多个训练示例。

卷卷0v0

关注

20
点赞
踩
25

收藏

觉得还不错? 一键收藏
2
评论
【论文阅读笔记】One-Shot Relational Learning for Knowledge Graphs - EMNLP 2018

长尾关系实际上在知识图谱中更常见，并且这些新添加的关系通常没有很多已知的三元组用于训练。在这项工作中，我们的目标是在只有一个训练实例可用的具有挑战性的环境下预测新事实。我们提出了一种one-shot关系学习框架，它利用嵌入模型提取的知识，并通过考虑学习的嵌入和一跳图结构来学习匹配度量。根据经验，我们的模型比现有嵌入模型产生了相当大的性能改进，并且在处理新添加的关系时也无需重新训练嵌入模型。
复制链接

扫一扫