Learning Entity and Relation Embeddings for Knowledge Graph Completion翻译笔记（学习实体和关系嵌入以完成知识图谱）

最新推荐文章于 2024-05-26 09:43:19 发布

QYLZ

最新推荐文章于 2024-05-26 09:43:19 发布

阅读量2k

点赞数 31

分类专栏：论文笔记文章标签：知识图谱学习人工智能关系嵌入学习实体自然语言处理 nlp

本文链接：https://blog.csdn.net/weixin_56242678/article/details/137816763

版权

论文笔记专栏收录该内容

37 篇文章 0 订阅

订阅专栏

在这里插入图片描述

论文标题：学习实体和关系嵌入以完成知识图谱

论文链接：https://nlp.csai.tsinghua.edu.cn/~lzy/publications/aaai2015_transr.pdf

摘要

知识图谱补全旨在进行实体间的链接预测。在本文中，我们考虑了知识图嵌入的方法。最近，TransE 和 TransH 等模型通过将关系视为从头部实体到尾部实体的转换，建立了实体和关系嵌入。我们注意到，这些模型只是将实体和关系放在同一个语义空间中。事实上，一个实体可能有多个方面，而各种关系可能侧重于实体的不同方面，这就使得一个共同的空间不足以进行建模。在本文中，我们提出了 TransR，在独立的实体空间和关系空间中建立实体和关系嵌入。之后，我们通过先将实体从实体空间投射到相应的关系空间，然后在投射实体之间建立翻译来学习嵌入。在实验中，我们在三个任务上评估了我们的模型，包括链接预测、三重分类和关系事实提取。实验结果表明，与包括 TransE 和 TransH 在内的最先进基线相比，我们的模型有了显著而一致的改进。本文的源代码可从 https://github.com/mrlyk423/relation_extraction 获取。

介绍

知识图谱编码实体及其丰富关系的结构化信息。尽管一个典型的知识图谱可能包含数百万个实体和数十亿个关系事实，但它通常远非完整。知识图谱补全的目的是在现有知识图谱的监督下预测实体之间的关系。知识图谱补全可以发现新的关系事实，是对从纯文本中提取关系的重要补充。

知识图谱补全类似于社会网络分析中的链接预测，但更具挑战性，原因如下：（1）知识图谱中的节点是具有不同类型和属性的实体；（2）知识图谱中的边是不同类型的关系。在完成知识图谱时，我们不仅要确定两个实体之间是否存在关系，还要预测关系的具体类型。

因此，传统的链接预测方法无法完成知识图谱的补全。最近，一种很有前途的方法是将知识图谱嵌入连续向量空间，同时保留图谱的某些信息。按照这种方法，人们探索了许多方法，将在 "相关工作 "部分详细介绍。

在这些方法中，TransE（Bordes 等人，2013 年）和 TransH（Wang 等人，2014 年）简单有效，达到了最先进的预测性能。TransE 受（Mikolov 等人，2013b）的启发，学习实体和关系的向量嵌入。这些向量嵌入都设置在 Rk 中，我们用粗体相同的字母表示。TransE 背后的基本思想是，两个实体之间的关系对应于实体嵌入之间的转换，即当（h, r, t）成立时，h + r≈ t。由于 TransE 在建模 1 对 N、N 对 1 和 N 对 N 关系时存在问题，因此提出了 TransH，使实体在涉及各种关系时有不同的表示。

TransE 和 TransH 都假设实体和关系的嵌入在同一个空间 $\mathbb{R}$ ^k 中。然而，一个实体可能有多个方面，而各种关系又侧重于实体的不同方面。因此，直观地看，有些实体是相似的，因此在实体空间中彼此接近，但在某些特定方面却相对不同，因此在相应的关系空间中彼此远离。为了解决这个问题，我们提出了一种新方法，即在不同的空间，即实体空间和多个关系空间（即特定关系实体空间）中建立实体和关系模型，并在相应的关系空间中执行翻译，因此命名为 TransR。

TransR 的基本思想如图 1 所示。对于每个三元组（h, r, t），实体空间中的实体首先通过操作 M_r投射到 r 关系空间中，成为 h_r 和 t_r，然后 h_r + r≈ t_r。针对特定关系的投影可以使实际存在关系的头尾实体（用彩色圆圈表示）相互靠近，也可以使不存在关系的实体（用彩色三角形表示）相互远离。
在这里插入图片描述

图 1：TransR 的简单示意图。

此外，在特定关系下，头尾实体对通常会表现出不同的模式。仅建立一个关系向量来执行从头部实体到尾部实体的所有转换是不够的。例如，关系 "location location contains "的头尾实体有许多模式，如国家-城市、国家-大学、大陆-国家等。根据分片线性回归的思想（Ritzema 等人，1994 年），我们对 TransR 进行了扩展，将不同的头尾实体对聚类成组，并为每组学习不同的关系向量，命名为基于聚类的 TransR（CTransR）。

我们在 WordNet 和 Freebase 的基准数据集上评估了我们的模型，包括链接预测、三重分类和关系事实提取等任务。实验结果表明，与最先进的模型相比，我们的模型具有显著而稳定的改进。

我们的方法

为了解决 TransE 和 TransH 的表示问题，我们提出了 TransR，它在不同的语义空间中表示实体和关系，并通过特定关系矩阵进行桥接。

TransR

TransE 和 TransH 都假设实体和关系嵌入同一个空间 $\mathbb{R}$ ^k。但关系和实体是完全不同的对象，可能无法在一个共同的语义空间中表示它们。虽然 TransH 通过使用关系超平面扩展了建模的灵活性，但它并没有完全打破这一假设的限制。为了解决这个问题，我们提出了一种新方法，即在不同的空间（即实体空间和关系空间）中对实体和关系建模，并在关系空间中执行翻译，因此命名为 TransR。

在 TransR 中，对于每个三元组（h, r, t），实体嵌入被设置为 h, t∈ $\mathbb{R}$ ^k，关系嵌入被设置为 r∈ $\mathbb{R}$ ^d。注意，实体嵌入和关系嵌入的维度不一定相同，即 k不等于 d。

对于每个关系 r，我们设置一个投影矩阵 M_r ∈ $\mathbb{R}$ ^k×d，它可以将实体从实体空间投影到关系空间。有了映射矩阵，我们定义实体的投影向量为
在这里插入图片描述

得分函数相应定义为
在这里插入图片描述

在实际应用中，我们对嵌入式 h、r、t 和映射矩阵的规范进行了约束，即∀h、r、t，我们有 ∥h∥₂ ≤ 1，∥r∥₂ ≤ 1，∥t∥₂ ≤ 1，∥hM_r∥₂ ≤ 1，∥tM_r∥₂ ≤ 1。

基于集群的 TransR（CTransR）

上述模型，包括 TransE、TransH 和 TransR，都是为每种关系学习一个唯一的向量，由于这些关系通常比较多样化，因此该向量可能不足以代表该关系下的所有实体对。为了更好地模拟这些关系，我们采用了片断线性回归（Ritzema 等人，1994 年）的思想来扩展 TransR。

其基本思想是，我们首先将输入实例分成几组。从形式上看，对于特定的关系 r，训练数据中的所有实体对（h, t）都会被聚类到多个组中，而每个组中的实体对都会表现出相似的关系 r。所有实体对（h，t）都用它们的向量偏移量（h - t）来表示，以便进行聚类，其中 h 和 t 是用 TransE 得到的。然后，我们分别为每个聚类学习一个单独的关系向量 r_c 和每个关系的矩阵 Mr。我们将实体的投影向量定义为 h_r,c = hM_r 和 t_r,c = tM_r，得分函数定义为
在这里插入图片描述

其中，∥r_c -r∥²₂ 的目的是确保特定集群的关系向量 r_c 不会与原始关系向量 r 相差太远，而 α 则控制这一约束的效果。此外，与 TransR 一样，CTransR 也对嵌入式 h、r、t 和映射矩阵的规范执行约束。

训练方法和实现细节

我们定义了以下基于边际的分数函数作为训练目标
在这里插入图片描述

其中，max(x, y) 的目标是获得 x 和 y 之间的最大值，γ 是边际，S 是正确三元组的集合，S′ 是错误三元组的集合。

现有的知识图谱只包含正确的三元组。通过替换实体来破坏正确的三元组（h, r, t）∈ S，并构建错误的三元组（h′, r, t′）∈ S′是常规的做法。在破坏三元组时，我们遵循（Wang 等人，2014 年）的做法，为头部/尾部实体替换分配不同的概率。对于那些 1 对 N、N 对 1 和 N 对 N 的关系，通过给予更多替换 "一边 "的机会，将减少产生假阴性实例的机会。在实验中，我们将传统的抽样方法称为 “unif”，将（Wang 等人，2014 年）中的新方法称为 “bern”。

TransR 和 CTransR 的学习过程采用随机梯度下降法（SGD）。为避免过度拟合，我们使用 TransE 的结果来初始化实体和关系嵌入，并将关系矩阵初始化为身份矩阵。
矩阵。

实验与分析

数据集和实验设置

在本文中，我们用两个典型的知识图谱来评估我们的方法，这两个知识图谱是用 WordNet（米勒，1995 年）和 Freebase（博拉克等人，2008 年）构建的。WordNet 提供单词的语义知识。在 WordNet 中，每个实体都是一个由多个词组成的同义词集，对应于一个不同的词义。同义词集之间定义了表示其词义关系的关系，如超义词、低义词、同义词和全义词。本文采用了 WordNet 中的两个数据集，即（Bordes 等人，2014 年）中使用的 WN18 和（Socher 等人，2013 年）中使用的 WN11。WN18 包含 18 种关系类型，WN11 包含 11 种关系类型。Freebase 提供了世界的一般事实。例如，三重（史蒂夫-乔布斯，创立，苹果公司）在史蒂夫-乔布斯的姓名实体和苹果公司的组织实体之间建立了创立关系。本文采用了 Freebase 中的两个数据集，即（Bordes 等人，2014 年）中使用的 FB15K 和（Socher 等人，2013 年）中使用的 FB13。表 1 列出了这些数据集的统计数据。
在这里插入图片描述

表 1：数据集统计

链接预测

链接预测旨在预测关系事实三元组（h, r, t）中缺失的 h 或 t，在（Bordes 等人，2011；2012；2013）中使用。在这项任务中，对于每个缺失实体的位置，系统都要对知识图谱中的一组候选实体进行排序，而不是只给出一个最佳结果。按照（Bordes 等人，2011；2013）的设定，我们使用 WN18 和 FB15K 数据集进行了实验。

在测试阶段，对于每个测试三元组（h, r, t），我们用知识图谱中的所有实体替换头/尾实体，并根据得分函数 f_r 计算出的相似性得分从高到低对这些实体进行排序。按照（Bordes 等人，2013 年）的方法，我们使用两个指标作为评价标准：（1）正确实体的平均排名；（2）排名前 10 位实体中正确实体的比例（Hits@10）。一个好的链接预测器应该获得较低的平均排名或较高的 Hits@10。事实上，知识图谱中也可能存在被破坏的三元组，这也应被视为正确的。然而，上述评估可能会低估那些将这些已损坏但正确的三元组排在前面的系统。因此，在排序之前，我们可以过滤掉知识图谱中出现的这些已损坏的三元组。我们将前一种评估设置命名为 “原始”，后一种命名为 “过滤”。

由于我们使用了相同的数据集，因此我们将我们的模型与（Bordes 等人，2013 年；Wang 等人，2014 年）中报告的基线进行了比较。在 TransR 和 CTransR 的实验中，我们在{0.1, 0.01, 0.001}中为 SGD 选择了学习率 λ，在{1, 2, 4}中选择了余量 γ，在{20, 50, 100}中选择了实体嵌入维度 k 和关系嵌入维度 d，在{20, 120, 480, 1440, 4800}中选择了批量大小 B，在{0.1, 0.01, 0.001}中为 CTransR 选择了α。根据验证集的平均排名确定最佳配置。最佳配置为：λ = 0.001, γ = 4, k = 50,d = 50, B = 1440, α = 0.001，并将 L1 作为 WN18 的异质性；λ = 0.001, γ = 1, k = 50, d = 50, B = 4800,α = 0.01，并将 L1 作为 FB15K 的异质性。对于这两个数据集，我们对所有训练三元组进行了 500 轮遍历。

对 WN18 和 FB15K 的评估结果如表 2 所示。从表中我们可以看出 (1) TransR 和 C-TransR 显著且持续地优于其他基线方法，包括 TransE 和 TransH。这表明 TransR 在模型复杂度和表达能力之间找到了更好的平衡。(2）CTransR 的表现优于 TransR，这表明我们应该建立细粒度模型来处理每种关系类型下复杂的内部关联。CTransR 只是一个初步的探索，我们将在今后的工作中为此建立更复杂的模型。(3) "bern "采样技巧在 TransH 和 TransR 上都有很好的效果，尤其是在关系类型更多的 FB15K 上。
在这里插入图片描述

表 2：链接预测的评估结果。

在表 3 中，我们按关系 1 在 FB15K 上的映射属性分别列出了评估结果。我们可以看到，TransR 在所有关系映射类别上都取得了持续的巨大进步，尤其是：（1）预测 "1-to-1 "关系，这表明 TransR 对实体和关系及其复杂的相关性都提供了更精确的表示，如图 1 所示；（2）预测 "1-to-N "和 "N-to-1 "关系的 1 边，这表明 TransR 能够通过特定关系的投影来区分相关和不相关的实体。
在这里插入图片描述

表 3：通过映射关系属性对 FB15K 的评估结果。(%)

表 4 给出了 FB15K 训练三元组中 "location location contains "关系的一些聚类示例。我们可以发现以下明显的模式：聚类#1 是大陆包含国家，聚类#2 是国家包含城市，聚类#3 是州包含县，聚类#4 是国家包含大学。很明显，通过聚类，我们可以学习到更精确、更精细的关系嵌入，这有助于进一步提高知识图谱完成的性能。
在这里插入图片描述

表 4："位置 location contains "关系的一些聚类的⟨Head, Tail⟩示例。

三重分类

三重分类的目的是判断给定的三重（h、r、t）是否正确。这是一项二元分类任务，已在（Socher 等人，2013 年；Wang 等人，2014 年）中进行了评估探讨。在这项任务中，我们使用了 WN11、FB13 和 FB15K 这三个数据集（Wang 等人，2014 年），其中前两个数据集在（Socher 等人，2013 年）中使用。

我们需要负三元组来评估二元分类。由 NTN（Socher 等人，2013 年）发布的数据集 WN11 和 FB13 已经有了负三元组，它们是通过破坏正确的三元组得到的。由于之前的工作尚未发布带有负三元组的 FB15K，因此我们按照（Socher 等人，2013 年）中的相同设置构建负三元组。对于三元组分类，我们设置了一个特定于关系的阈值 δ_r。对于一个三元组（h, r, t），如果 f_r 得到的不相似性得分低于δ_r，则该三元组将被归类为正三元组，否则为负三元组。δ_r通过最大化验证集上的分类准确率来优化。

对于 WN11 和 FB13，我们将我们的模型与（Wang 等人，2014 年）报告的基线方法进行了比较，后者使用了相同的数据集。如（Wang 等人，2014 年）所述，为进行公平比较，所有报告结果均未结合词嵌入。

由于 FB15K 是我们根据（Socher 等，2013 年）中的策略生成的，因此评估结果无法与（Wang 等，2014 年）中报告的结果直接比较。因此，我们使用（Socher 等人，2013 年）发布的 NTN 代码实现了 TransE 和 TransH，并在我们的 FB15K 数据集上进行了评估比较。

在 TransR 的实验中，我们在{0.1, 0.01, 0.001, 0.0001}中选择了 SGD 的学习率 λ，在{1, 2, 4}中选择了余量 γ，在{20, 50, 100}中选择了实体嵌入维度 k 和关系嵌入维度 d，在{20, 120, 480, 960, 4800}中选择了批量大小 B。最佳配置是：λ = 0.001，γ = 4，k，d = 20，B = 120，并将 L₁ 作为 WN11 的异相似度；λ = 0.0001，γ = 2，k，d = 100，B = 480，并将 L₁ 作为 FB13 的异相似度。对于这两个数据集，我们对所有训练三元组进行了 1000 轮遍历。

三重分类的评估结果如表 5 所示。从表 5 中，我们可以发现 (1) 在 WN11 上，TransR 的表现明显优于包括 TransE 和 TransH 在内的基线方法。 (2) 在 FB13 上，TransE、TransH 和 TransR 的表现都不能优于最具表现力的模型 NTN。相反，在更大的数据集 FB15K 上，TransE、TransH 和 TransR 的表现要比 NTN 好得多。这些结果可能与数据集的特点有关： FB15K 中有 1 345 种关系类型，而 FB13 中只有 13 种关系类型。同时，两个数据集中的实体和关系事实的数量也很接近。正如（Wang 等人，2014 年）所讨论的，FB13 中的知识图谱比 FB15K 甚至 WN11 中的知识图谱都要密集得多。看来，最具表现力的模型 NTN 可以通过张量变换从 FB13 的密集图中学习复杂的相关关系。相比之下，更简单的模型能够更好地处理 FB15K 的稀疏图，并具有良好的泛化能力。(3) 此外，"bern "采样技术提高了 TransE、TransH 和 TransR 在所有三个数据集上的性能。
在这里插入图片描述

表 5：三重分类的评估结果。(%)

如（Wang 等人，2014 年）所示，TransE 和 TransH 的训练时间分别约为 5 分钟和 30 分钟，TransR 的计算复杂度高于 TransE 和 TransH，训练时间约为 3 小时。

从文本中提取关系

关系提取的目的是从大规模纯文本中提取关系事实，纯文本是丰富知识图谱的重要信息源。大多数现有方法（Mintz 等人，2009 年；Riedel、Yao 和 McCallum，2010 年；Hoffmann 等人，2011 年；Surdeanu 等人，2012 年）将知识图谱作为远距离监督，自动注释大规模文本语料库中的句子作为训练实例，然后提取文本特征来构建关系分类器。这些方法仅使用纯文本来推理新的关系事实；而知识图谱嵌入则仅基于现有的知识图谱进行链接预测。

利用纯文本和知识图谱来推理新的关系事实是非常简单的。在（Weston 等人，2013 年）中，TransE 和基于文本的提取模型被结合起来对候选事实进行排序，并取得了可喜的改进。TransH 也有类似的改进（Wang 等人，2014 年）。在本节中，我们将研究 TransR 与基于文本的关系提取模型相结合时的性能。

我们采用 NYT+FB（Weston 等人，2013 年）来构建基于文本的关系提取模型。在这个数据集中，《纽约时报》语料库中的实体都用斯坦福 NER 进行了注释，并链接到 Freebase。

在我们的实验中，我们采用了（Weston 等人，2013 年）中提出的基于文本的抽取模型，并将其命名为 Sm2r。在知识图谱部分，（Weston 等人，2013 年）使用的子集仅限于前 400 万个实体和 2.3 万种关系类型。由于 TransH 尚未发布数据集，而 TransR 从 400 万个实体中学习又需要很长时间，因此我们自己生成了一个较小的数据集 FB40K，其中包含《纽约时报》中的所有实体和 1,336 种关系类型。为了测试公平性，我们从 FB40K 中删除了所有实体对在 NYT 测试集中出现过的三元组。与之前的结果（Weston 等人，2013；Wang 等人，2014）相比，我们发现使用 FB40K 学习并不会显著降低 TransE 和 TransH 的有效性。因此，我们可以放心地使用 FB40K 来证明 TransR 的有效性。

按照（Weston 等人，2013 年）的相同方法，我们将基于文本的关系提取模型的得分与知识图嵌入的得分结合起来，对测试三元组进行排序，并得到 TransE、TransH 和 TransR 的精度-召回曲线。由于我们的数据集的自由库部分是自己建立的，与（Wang 等人，2014 年）中的数据集不同，因此评估结果不能直接与（Wang 等人，2014 年）中报告的结果进行比较。因此，我们自己实现了 TransE、TransH 和 TransR。我们设置嵌入维度 k、d = 50，学习率 λ = 0.001，边距 γ = 1.0，B = 960，相似度指标为 L₁。评价曲线如图 2 所示。
在这里插入图片描述

图 2：TransE、TransH 和 TransR 从文本中提取关系的精度-召回曲线。

从表中可以看出，当召回率范围为 [0, 0.05] 时，TransR 优于 TransE，与 TransH 相当；当召回率范围为 [0.05, 1] 时，TransR 优于包括 TransE 和 TransH 在内的所有基线。

最近，嵌入的想法也被广泛用于表示单词和文本（Bengio 等人，2003 年；Mikolov 等人，2013 年 a；2013 年 b；Mikolov、Yih 和 Zweig，2013 年），它可用于基于文本的关系提取。

结论与未来工作

在本文中，我们提出了一种新的知识图嵌入模型 TransR。TransR 将实体和关系嵌入到不同的实体空间和关系空间中，并通过投影实体之间的翻译来学习嵌入。此外，我们还提出了 CTransR，其目的是基于分片线性回归的思想，对每种关系类型内部复杂的相关性进行建模。在实验中，我们在三个任务上评估了我们的模型，包括链接预测、三重分类和文本事实提取。实验结果表明，与 TransE 和 TransH 相比，TransR 实现了持续而显著的改进。

我们将探索以下进一步的工作：

包括 TransR 在内的现有模型会单独考虑每个关系事实。事实上，关系之间存在丰富的关联模式。例如，如果我们知道（金鱼，同类，鱼）和（鱼，同类，动物），我们就可以推断出（金鱼，同类，动物），因为同类的关系类型是传递性的。我们可以利用这些关系模式进行知识图嵌入。
在从文本中提取关系事实时，我们只需将文本提取模型和知识图嵌入模型的得分进行线性加权平均即可。未来，我们可能会探索文本和知识图谱的统一嵌入模型。
CTransR 是对每种关系类型内部相关性建模的初步探索。今后，我们将为此研究更复杂的模型。