论文翻译解读：a benchmarking study of embdedding-based entity alignment for knowledge graphs【02】

最新推荐文章于 2023-01-08 21:14:41 发布

OneTenTwo76

最新推荐文章于 2023-01-08 21:14:41 发布

阅读量372

点赞数

分类专栏：论文翻译解读文章标签：知识图谱人工智能机器学习

本文链接：https://blog.csdn.net/weixin_43923463/article/details/125735444

版权

论文翻译解读专栏收录该内容

9 篇文章 1 订阅

订阅专栏

文章目录

简要信息
重点内容概括

简要信息

序号	属性	值
1	模型名称	OpenEA
2	所属领域	知识图谱实体对齐
3	研究内容	基于嵌入的知识表示
4	核心内容	嵌入模型
5	GitHub源码	OpenEA
6	论文PDF	a benchmarking study of embdedding-based entity alignment for knowledge graphs
7	发表年份	2020

重点内容概括

5.1 实验设定

对关系三元组使用固定的batch大小、归一化会产生更好的结果、评价指标选择Hits@m（m=1,5），MR，MRR

5.2 结果分析

关系嵌入仍有贡献【KDCoE，GCNAlign，AttrE，IMUSE和RDGCN在密集数据集上表现较好】

现有方法不能很好处理长尾实体，使用额外字面量可以得到缓解【KDCoE，AttrE，IMUSE，MultiKE和RDGCN】

多映射关系给许多嵌入方法带来了挑战【MTransE，JAPE】

候选空间和负例越多，越难将目标实体排在顶部

只有正样本的训练嵌入容易出现过拟合，负样例很重要【BootEA】

自举训练也很重要【BootEA】

属性异质性对捕获属性相关性有很强的影响，字面量是在实体对齐中比属性相关性更强的信息

增强实体对齐的数量和质量对半监督方法影响很大【BootEA在自举训练中使用启发式编辑方法消除错误对齐，性能明显提升】

使用辅助信息（技术）提高性能通常会增加训练时间，MultiKE在有效性和效率方面得到了很好的平衡

6.1 几何分析

使用余弦相似度作为度量

希望保持较高的top-1相似度和较大的相似方差

可以通过中心性和独立性去估计最终的实体对齐性能

CSLS减少了中心实体和其他实体间的相似性

稳定匹配，从全局的角度检索实体对齐，而不是基于最近邻搜索的贪婪策略

对齐模块的方法也可以提高性能

6.2 未探索的KG嵌入模型

TransH（处理多映射，负采样），TransD具有很好的性能，TransR表现不好

VonvE和ProjectE也表现很好，RotatE > SimplE

非欧几里得嵌入值得研究

6.3 与传统方法比较

当前基于嵌入的方法把主要精力放在学习表达嵌入来捕获实体特征上，忽略了对齐推理，它们的对齐推理策略是基于两两相似比较，缺乏不一致性修复和整体估计能力，导致了中心和隔离，基于嵌入的方法在对齐推断方面有待进一步改进

两种方法可以产生互补的实体对齐

7.1 实验总结

RDGCN，BootEA，MultiKE

自举过程有助于实体对齐

对齐推理策略

7.2 未来方向

正交Procrustes，对抗训练

主动学习或溯因学习

多模态数据和分类法

联合训练链接预测和实体对齐

敏感哈希和哈希表示学习

面向对齐的非欧几里得KG嵌入

5 实验和结果

在本节中，我们报告了使用我们的基准数据集和开源库的全面评估。

5.1 实验设定

表4:所有方法的通用超参数

**环境。**实验采用Intel Xeon E3 3.3GHz CPU, 128GB内存，NVIDIA GeForce GTX 1080Ti GPU, Ubuntu 16.04操作系统。

**交叉验证。**我们的实验采用5次交叉验证，以确保评价的公正性。具体来说，我们将参考实体对齐分为5次不相交的折叠，每一次折叠占总数的20%。对于每次运行，我们选择一倍(20%)作为训练数据，剩下的用于验证(10%)和测试(70%)。如[10]中所示，多语言维基百科中的语言间链接大约占实体对齐的15%。因此，使用20%作为训练数据既可以满足5次交叉验证的需要，又符合实际情况。

**比较方法和环境。**我们评估了OpenEA中实现的所有基于嵌入的实体对齐方法。为了进行公平的比较，我们尽最大努力统一实验设置。表4显示了用于所有方法的常见超参数。如[35]中所示，batch大小对性能和运行时间有影响。因此，我们对关系三元组使用固定的batch大小，以避免其干扰。对于每种方法特定的其他设置，我们尽可能仔细地遵循文献中报告的细节，例如，IPTransE和AttrE的排名损失边际为1.5;GCNAlign和RDGCN中GCN层数为2。对于一些关键超参数和未报告的超参数，我们尽最大努力对它们进行调优。例如，对于许多方法，例如IMUSE，我们将实体嵌入的l2范数限制为1，因为我们发现这样的归一化会产生更好的结果。对于跨语言数据集，我们使用预先训练的跨语言单词嵌入[4]来初始化使用属性值的方法的字面量嵌入。我们的数据集上每种方法的超参数设置都可以在线获得。请注意，与本文同时出现的一些新兴方法(例如，AliNet[74])。我们将相应地将这些方法纳入OpenEA的未来版本中。

**评价指标。**在我们的实验中，默认对齐方向是从左到右。以D-W为例。我们将DBpedia作为源，并将其与目标KG Wikidata对齐。按照惯例，我们使用Hits@m (m = 1,5)、MR和MRR作为评估指标。

**可用性。**我们在线发布数据集和OpenEA库。以CSV格式提供了所有指标在每个数据集的五次实验结果。所有这些都将随着新方法的出现而适时更新。

5.2 主要结果与分析

表5描述了在我们的数据集上实现的12种方法的Hits@1、Hits@5和MRR结果。综上所述，RDGCN、BootEA、MultiKE取得了前3名的成绩。为了全面透彻的了解，我们从五个角度分析结果:

**稀疏数据集(V1)与密集数据集(V2)。**从表5中，我们发现大多数基于关系的方法在密集数据集上比在稀疏数据集上表现更好，例如IPTransE, BootEA, SEA和RSN4EA。这与我们的直觉一致，密集数据集中的实体通常涉及更多的关系三元组，这使这些方法能够捕获更多的语义信息。在考虑属性三元组的方法中，KDCoE、GCNAlign、AttrE、IMUSE和RDGCN在密集数据集上也有较好的表现，说明关系嵌入仍有一定的贡献。不同的是，MultiKE依赖于特征的多个“视图”，这使得它对关系的变化相对不敏感。有趣的是，我们还看到两种基于关系的方法，MTransE和JAPE，在一些密集的数据集上性能有所下降。我们认为这是因为它们是基于TransE的，而TransE在处理密集数据集中的多映射关系方面存在不足。例如，在EN-FR-100K (V1)中有39.0%的实体具有多映射关系，而在EN-FR-100K (V2)中这一比例高达71.2%。复杂的结构使得MTransE和JAPE对于那些涉及相同多映射关系的不同实体容易学习非常相似的嵌入[49,82]，。

为了进一步分析，我们根据对齐程度将每个数据集的测试对齐分成多个组。对齐程度定义为两个相关实体的关系三元组之和。图5展示了EN-FR-15K (V1)的召回结果。显然，大多数实体只有相对较少的关系三元组，我们称之为长尾实体。我们发现，所有基于关系的方法在对齐具有丰富关系三元组的实体方面运行得更好，而它们的结果在长尾实体上下降，因为长尾实体几乎没有对学习有用的信息，这限制了它们嵌入的表达能力。这种不平衡的性能从另一个角度证实了在稀疏和密集数据集上的结果。通过使用额外的字面量，KDCoE、AttrE、IMUSE、MultiKE和RDGCN的不平衡性能得到了缓解。然而，使用属性关联的JAPE和GCNAlign对不同程度实体的性能仍然不平衡。在其他数据集上的实验也与上述结果一致。目前，我们还没有看到一个方法可以很好地处理长尾实体。

**15K数据集vs. 100K数据集。**我们观察到，除了D-Y之外，所有的方法在15K数据集上都比在100K数据集上表现得更好，因为100K数据集具有更复杂的结构，导致基于嵌入的方法更难捕捉实体邻近性。例如，EN-FR-15K (V1)中有34.9%的实体参与了多映射关系，而EN-FR-100K (V1)中这一比例达到39.0%。正如我们所讨论的，多映射关系给许多嵌入方法带来了挑战。此外，100K数据集比15K数据集有更大的候选对齐空间。在更大的候选空间和更多的负例情况下，很难将目标实体排在顶部。不同的是，在YAGO中D-Y-15K和D-Y-100K的关系数非常相似，这使得结果不同于其他数据集。

**关系和属性。**对于纯粹基于关系的方法，针对单映射关系的嵌入技术没有明显的优势。例如，虽然MTransE和BootEA都使用TransE，但它们的性能处于两个极端。我们认为BootEA中的负采样做出了很大的贡献，只有正样本的训练嵌入容易出现过拟合。[7]中的工作也表明负采样可以很大程度上影响KG嵌入的表现力。我们对MTransE进行负采样和边际排名损失，发现其对EN-FR-15K (V1)的Hits@1上升到0.271，这进一步证明了负采样的有效性。此外，BootEA的bootstrapping策略也起到了很大的作用。再如IPTransE和RSN4EA都是通过将关系三元组链接到较长的关系路径来扩展基于三元组的嵌入，但它们的结果也有显著差异。这是因为RSN4EA的循环跳转网络比IPTransE的浅构图更强大。

对于使用属性的方法，我们将它们与不嵌入属性的变体进行比较。图6显示了D-W-15K (V1)和D-Y-15K (V1)的Hits@1结果。其他数据集也显示了类似的结果。在D-Y上，我们没有观察到JAPE和GCNAlign通过对聚集实体使用属性关联的显著改进。如果没有预先对齐的属性，这种技术将无法捕获不同KGs之间的属性相关性。此外，即使发现了属性相关性，这个信息也太粗粒度，无法确定具有相关属性的两个实体是否对齐。不同的是，字面量嵌入为除IMUSE外的大多数方法带来了显著的改进，这表明字面量是实体对齐比属性相关性更强的信息。IMUSE有一个预处理步骤，使用文字找到新的实体对齐，以增加训练数据。然而，新的对齐中的错误也会损害性能。大多数方法不能通过在D-W上嵌入属性来改进。Wikidata中属性的符号异质性(例如，属性的本地名称是数字id)对一些方法提出了明显的挑战，因为它们无法自动找到高质量的属性对齐来进行文字比较。总的来说，属性异质性对捕获属性相关性有很强的影响，而字面量嵌入促进了实体对齐。

图6:Hits@1 JAPE、GCNAlign、KDCoE、AttrE、IMUSE、MultiKE、RDGCN及其不含属性嵌入的降级变体的结果

图7:EN-FR-100K (V1)迭代时增强对齐的精度、召回率和f1分

图8:V1数据集上的运行时间(以日志规模计算

图9:实体之间相似性的可视化

**半监督学习策略。**我们进一步研究了这些半监督学习策略的优势和局限性，通过分析增强种子对齐的质量。图7描述了在EN-FR-100K (V1)半监督训练中IPTransE、BootEA和KDCoE的precision、recall和F1-score，其他数据集也显示了类似的结果。IPTransE不能达到很好的性能，因为它在自我训练的过程中会出现很多错误，但没有设计出消除这些错误的机制。KDCoE通过共同训练两种正交类型的特征(即关系三元组和文本描述)来传播新的对齐。然而，许多实体缺乏文本描述，这使得KDCoE无法找到对齐种子来增强训练数据。因此，其策略并没有带来明显的改善。BootEA采用启发式编辑方法来消除错误的对齐。在经过一段时间的波动后，precision保持稳定，而recall在自我训练中持续增长，这带来了明显的性能提升。我们还对BootEA进行了消融研究，发现它的自我训练策略在V1数据集上可以带来超过0.086 Hits@1的改进，证明了它的有效性。因此，增强实体对齐的数量和质量对半监督方法有很大的影响。更高精度的更大的增强对齐导致更好的性能。

**运行时间进行比较。**在图8中，我们对V1数据集中5次重复的平均运行时间进行了简单的比较。不同方法所用的时间差异很大。通常，在100K数据集上运行一种方法比在15K数据集上运行需要更多的时间。BootEA比其他方法要慢得多。例如，它在EN-FR-15K (V1)和EN-FR-100K (V1)上的运行时间分别为2,260和26,939秒，其中截断的负采样和自举过程分别花费了超过23.5%和13.3%的时间。RSN4EA也使用很多时间，特别是在15K (V1)数据集上，因为它是用多跳路径训练的，这是远远超过关系三元组(即，单跳路径)。例如，EN-FR-15K (V1)的两跳路径数为500,260，是关系三跳(88,198)的5倍多。至于KDCoE 和 AttrE，它们的很多时间都花在对文字信息进行编码上。例如，在KDCoE中，用于培训描述的时间至少占26.3%。相比之下，GCNAlign 和 MTransE使用更少的时间，因为他们只使用关系三元组，也有轻量级的模型复杂性。因此，我们认识到使用辅助信息或技术来提高性能通常会增加训练时间。总的来说，MultiKE很好地平衡了有效性和效率，因为它的多视图判别特征使它在实体对齐方面快速收敛。

6 探索性实验

6.1 几何分析

除了性能比较之外，我们在此将重点放在实体嵌入的几何属性上，以了解这些嵌入如何支持实体对齐性能以及现有方法的潜在限制。

6.1.1 相似度分布

在给定实体嵌入的前提下，对齐推理算法通过嵌入空间的最近邻搜索来识别对齐的实体。在Cross-KG范围内研究每个实体及其最近邻居的相似性分布是很有趣的。为此，我们在图9中可视化了源KG和D-Y-15K (V1)上目标KG的前5个最邻近实体之间的平均相似度。为了使所有方法的相似性具有可比性，我们选择余弦相似度作为度量。结果显示了两个有趣的发现:

首先，不同方法的源实体与其最近邻(top-1 similarity)之间的平均相似性差异很大。BootEA、KDCoE、MultiKE和RDGCN的top-1相似度很高，而IPTransE和RSN4EA则相反。直观上，高的top-1相似度表明质量更好，因为它可以反映实体嵌入如何自信地捕获两个KGs之间的对齐信息。大多数具有高top-1相似度的方法，如BootEA、MultiKE和RDGCN，也实现了良好的实体对齐性能(见表5)。对于KDCoE，如图7所示，其增强对齐的低精度使其top-1实体对齐包含许多错误。因此，它的性能不如BootEA。但它仍然优于许多其他的模型，因为它的描述和关系嵌入是互补的，因此可以帮助找到一些正确的对齐。

其次，最接近的5行之间的相似度差异也很大，这可以通过从上到下的5行颜色梯度来反映。BootEA、KDCoE、RSN4EA和RDGCN差异较大，而MTransE、IPTransE和JAPE差异很小。一个小的相似方差意味着最近的邻居没有足够的辨别能力，使实体能够正确地识别对应的实体。MTransE中的过拟合问题、IPTransE中的自举错误和JAPE中的模糊实体聚类是导致它们非区别嵌入的原因。其他数据集也显示了类似的分布。实体对齐的理想相似度分布是保持较高的top-1相似度和较大的相似方差。

6.1.2 中心性和独立性

中心性是高维向量空间[60]中常见的现象，其中一些点(称为中心)经常作为向量空间中许多其他点的最近邻出现。另一个现象是，存在一些孤立于任何点簇的异常值。这两个问题对依赖最近邻搜索的任务有负面影响[11,55]。在这里，我们研究了基于嵌入的实体对齐是否也会受到它们的影响。我们分别测量出现0次、1次和多次作为源实体最近邻居的目标实体的比例。图10显示了D-Y-15K (V1)上的结果，其他数据集也显示了类似的结果。令人惊讶的是，我们发现有很大比例的目标实体从未出现在任何源实体的前1个最近的邻居中(用橙色条标记)。这意味着，如果我们使用贪心策略选择最近邻的前1来形成对齐，这些孤立的实体可能永远不会被考虑。因此，我们将错过许多正确的实体对齐。作为多个源实体的最近邻居的实体(蓝色和灰色条)也占据了相当大的比例。它们会导致许多违反1对1映射约束的行为，并在全局上增加对齐推断的不确定性。我们观察到，产生较少的隔离和集线器实体的方法，如MultiKE和RDGCN，实现了实体对齐的领先性能，反之亦然。因此，理想的情况是有小比例的孤立和中心实体。这一发现表明，我们可以通过中心性和独立性分析来估计最终的实体对齐性能。

为了解决中心和隔离问题，我们探索了跨域相似局部尺度[11]作为替代度量。它根据源实体和目标实体嵌入邻居的密度对其相似性进行归一化。以余弦函数为例，有CSLS

ψt(xs)表示源实体xs与其在目标KG中的最近邻之间的平均相似度。ψs(xt)是对称计算的。CSLS减少了中心实体和其他实体之间的相似性。它还可以让一些孤立的实体在测试中得到公平的考虑，因为它们通常得到较少的相似性惩罚。因此，我们使用CSLS来增强传统的距离度量。此外，我们还考虑了稳定匹配(又称稳定匹配)。从全局的角度来检索实体对齐，而不是基于最近邻搜索的贪婪策略。当不存在比e1和e2更优先于当前匹配的预测对齐对(e1, e2)时，两个KGs之间的实体对齐是稳定的。优先级可以基于类似CSLS的相似性度量来计算。

我们在表6中报告了用CSLS和稳定匹配(缩写SM)增强的Hits@1结果。我们发现CSLS为贪婪策略带来了显著的收益，尤其是在MTransE、JAPE、GCNAlign和AttrE上。这是因为CSLS可以帮助缓解中心性现象。除此之外，SM还带来了进一步的改善。例如，与贪婪的策略相比，它为MTransE, JAPE, KDCoE, GCNAlign, AttrE, IMUSE, SEA和RotatE增加了超过10%的Hits@1性能。原因在于SM可以考虑所有的实体，包括孤立的实体。有趣的是，我们观察到CSLS并没有提高SM的性能。这表明SM对距离度量的依赖较小。我们在其他数据集上也得到了类似的结果。总之，现有的方法主要集中在开发更强大的嵌入和交互方法，但一些对齐模块的方法也可以提高性能。

表6:Hits@1 w.r.t D-Y-15K (V1)上距离度量和对齐推断策略

6.2 未探索的KG嵌入模型

如2.1节所述，现有的方法大多使用TransE[5]或GCNs[38]进行KG嵌入，因为它们具有较强的鲁棒性和良好的泛化性。然而，许多其他KG嵌入模型还没有探索实体对齐。为了填补这一空白，我们评估了三个翻译模型TransH [82]， TransR[49]和TransD[33]，两个深度模型ProjE[66]和ConvE[13]，以及三个语义匹配模型HolE [54]， SimplE[36]和RotatE[71]，用于实体对齐。我们选择MTransE作为基线，并将其关系嵌入模型TransE替换为上述模型。我们在图11中报告了关于V1数据集的Hits@1结果。其他结果可以在网上找到。TransR和HolE的结果被省略，因为它们的Hits@1分数在大多数数据集中小于0.01。

我们可以看到，改进的TransH和TransD翻译模型在所有数据集上都表现出稳定和有好的性能。在100K数据集上，TransH比MTransE稳健，获得了更好的结果。这是因为TransH可以更好地处理多映射关系，并使用负采样来增强嵌入。不同的是，我们发现TransR并没有取得很好的结果。TransR中特定于关系的实体嵌入转换需要关系对齐来在实体之间传播对齐信息。然而，在我们的问题设置中，我们关注实体对齐，而不提供关系对齐，因为在KG模式之间存在很大的异构性。神经模型ConvE和ProjectE在大多数数据集上也显示出良好的结果。然而，我们发现它们在D-Y-15K (V1)上的表现很差。这是由于这些数据集中的关系三元组较少，关系数之间的差距较大。利用ConvE的二维卷积或ProjectE的非线性变换难以获得实体嵌入和关系嵌入之间的相似交互，对于语义匹配模型非欧氏嵌入模型RotatE的性能要比SimplE的性能好得多。它的表现也优于其他模型。简而言之，并非所有的KG嵌入模型都适合实体对齐，非欧几里得嵌入值得进一步探索。

6.3 与传统方法的比较

我们将OpenEA与两种著名的用于KG对齐的开源传统方法进行比较，即来自语义Web社区的LogMap[34]和来自数据库社区的PARIS[70]。LogMap是一个具有内置推理和不一致修复能力的本体匹配系统。PARIS是一个基于概率估计的整体解决方案。跨语言数据集中的非英语KGs使用谷歌Translate翻译成英语，以消除LogMap和PARIS的语言障碍。

**整体比较。**表7比较了LogMap、paris和OpenEA中最好的基于嵌入的方法。在OpenEA的测试阶段，每个源实体得到一个候选列表，精确度、召回率和F1-score实际上等于Hits@1。所有这些方法都取得了良好的结果，其中paris在我们的大多数数据集上表现最好，包括en - fr、EN-DE和D-W，而LogMap在D-Y上取得了良好的性能。总的来说，OpenEA与传统的PARIS和LogMap相比没有任何优势。我们认为这是因为当前基于嵌入的方法把主要精力放在学习表达嵌入来捕获实体特征上，而忽略了对齐推理。如2.2.2节所述，它们的对齐推断策略是基于两两相似性比较，缺乏logmap和PARIS的不一致性修复和整体估计能力。我们在第6.1节中的几何分析进一步表明，这种弱点将导致中心和隔离的问题，从而降低实体对齐性能。通过解决这个问题，如表6所示，OpenEA (RDGCN)在D-Y-15K (V1)上实现了更好的Hits@1(精度)，并优于表7中的LogMap和PARIS。实验表明，基于嵌入的实体对齐方法在对齐推断方面有待进一步改进。此外，我们注意到LogMap无法输出D-W数据集上的实体对齐。这是因为LogMap高度依赖于uri中的本地名称来计算相似性，而Wikidata中的uri没有实际意义(例如，https://www.wikidata.org/wiki/Property:P69)。事实上，所有方法对D-W的处理结果都明显下降。符号的异质性给传统方法和基于嵌入的方法都带来了巨大的障碍。

**特性研究。**表8显示了仅给定EN-FR-15K (V1)的关系或属性三元组时LogMap和paris以及三种性能最好的基于嵌入的方法RDGCN、BootEA和MultiKE的结果。LogMap和paris依赖于属性三元组，在只使用关系三元组的情况下无法输出对齐。这与所有使用关系三元组的基于嵌入的方法不同。在只使用关系三元组的情况下，BootEA不受缺少属性三元组的影响。MultiKEand RDGCN的性能大大下降，因为它们的属性嵌入模块在这种情况下被禁用。然而，它们的关系嵌入模块仍然可以学习嵌入。当只使用属性三元组时，LogMap的结果几乎保持不变，因为它主要使用属性三元组来实现计算实体的相似性。由于不能使用关系推理找到更多的实体对齐，对PARIS的recall急剧下降。但是它的精度仍然很高，甚至比表7中的精度稍好。考虑到PARISis不是为关系推理而设计的，关系三元组可能会给这种方法带来噪声。对于基于嵌入的方法，RDGCN和BootEA不能学习没有关系三元组的嵌入。多视图方法multike也遭受性能损失，因为它不能从关系嵌入中受益。实验揭示了这些实体对齐方法的不同应用场景。传统方法更好地支持使用属性信息的实体对齐场景。基于嵌入的方法涵盖了大多数典型的场景，包括关系信息、属性信息或两者兼而有之。

**预测对齐分析。**为了进一步研究基于嵌入的方法和传统方法的潜在互补性，我们在图12中展示了OpenEA (RDGCN)、LogMap和PARIS在EN-FR-100K (V1)上发现的正确对齐比例。它们都面临着同样的挑战(符号异质性)。我们发现它们可以产生互补的实体对齐。这一分析需要一个混合系统来实现实体对齐，该系统建立在传统和基于嵌入式技术的基础上。

7 总结与未来发展方向

7.1 实验总结

实验结果表明:(1)RDGCN、BootEA和MultiKE具有最具竞争力的性能。这表明结合文字信息和精心设计的自举过程可以帮助实体对齐。(ii)对于设计用于链接预测的嵌入模型，我们发现并非所有的嵌入模型都适用于实体对齐。(iii)目前对对齐推理策略的关注较少。我们的初步结果表明，CSLS距离度量和稳定匹配策略可以提高所有方法的性能。(4)我们还发现，基于嵌入的和传统实体对齐方法是互补的。(v)为了根据现实场景中的可用资源选择合适的方法，表9总结了我们实验分析中基于嵌入和传统实体对齐方法所需的信息。

7.2 未来的发展方向

**无监督实体对齐。**正如第2.2.3节所总结和第5.2节所讨论的，所有当前的方法都需要种子对齐作为监督。然而，这一要求在现实世界中有时很难得到满足。因此，研究无监督实体对齐是一个有意义的方向。一种可能的解决方案是合并辅助特征或资源，并从它们中提取远距离的监督，例如鉴别特征(人的主页和产品的介绍图像)和预先训练的词嵌入[87]。此外，最近在无监督跨语言词对齐[11]方面的进展，如正交Procrustes[64]和对抗性训练[23]也值得研究。另一种可能的解决方案是使用主动学习[32,59]或溯因学习[92]来减少数据标注的负担。

**长尾实体对齐。**我们在稀疏和密集数据集上的实验分析揭示了长尾实体对齐的困难，长尾实体通常在KGs[43]中占很大比例。为了嵌入长尾实体，除了使用更先进的图神经网络[38,63,78]外，注入更多的特征，如多模态数据和分类法也会有所帮助。由于KGs还远未完成，通过统一的框架联合训练链路预测和实体对齐可以利用这两项任务的附带监督。从开放网络中提取附加信息来丰富长尾实体也是一个潜在的方向[67]。

**大型实体对齐。**运行时间的比较表明，在更大的数据集上训练现有方法要花费更多的时间。测试阶段也需要很多时间。例如，计算100K数据集上实体嵌入的两两余弦相似度需要使用10个并行进程，大约花费8分钟。随着实体数量的增加，成本会呈多项式地增长。由于候选空间大且未分区，基于嵌入(以及传统)的方法很难在非常大的KG上运行。分块技术，如位置敏感哈希[21]和哈希表示学习[45]，可能有助于缩小候选空间。

**非欧几里得空间中的实体对齐。**我们的实验结果如图11所示，非欧几里得嵌入模型RotatE[71]优于其他欧几里得模型。我们还注意到，最近的非欧几里得嵌入已经证明了它们在表示图结构数据[53]方面的有效性。因此，面向对齐的非欧几里德KG嵌入模型值得探索。

8 结论

本文综述了基于嵌入的知识图谱间实体对齐的研究领域，并对具有代表性的实体对齐方法进行了基准研究。我们创建了一组更适合真实世界的数据集，并开发了一个包含各种实体对齐方法和KG嵌入模型的开源库。我们的实验分析了现状，并指出了未来的发展方向。

**致谢。**国家重点研发计划(No. 2018YFB1004300)、国家自然科学基金(No. 61872172)、新型软件技术与产业化协同创新中心资助。

OneTenTwo76

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
论文翻译解读：a benchmarking study of embdedding-based entity alignment for knowledge graphs【02】

5.1 实验设定对关系三元组使用固定的batch大小、归一化会产生更好的结果、评价指标选择Hits@m（m=1,5），MR，MRR5.2 结果分析关系嵌入仍有贡献【KDCoE，GCNAlign，AttrE，IMUSE和RDGCN在密集数据集上表现较好】现有方法不能很好处理长尾实体，使用额外字面量可以得到缓解【KDCoE，AttrE，IMUSE，MultiKE和RDGCN】多映射关系给许多嵌入方法带来了挑战【MTransE，JAPE】候选空间和负例越多，越难将目标实体排在顶部只有正样本
复制链接

扫一扫