论文翻译解读:a benchmarking study of embdedding-based entity alignment for knowledge graphs【01】

简要信息

序号属性
1模型名称OpenEA
2所属领域知识图谱实体对齐
3研究内容基于嵌入的知识表示
4核心内容嵌入模型
5GitHub源码OpenEA
6论文PDFa benchmarking study of embdedding-based entity alignment for knowledge graphs
7发表年份2020

重点内容概括

1 介绍

​ 实体对齐主要的挑战:独立创造的KGs之间的符号,语言和图式异质性

​ 实体对齐框架:嵌入模块,对齐模块,交互模块,迭代技术

​ 创新点:每个模块主流技术选择,各个模型的特点

​ 提出基准数据集,新的采样算法

​ 开源代码库

​ 嵌入技术探讨

2.1 文献概述

​ 嵌入模型:平移模型,语义匹配模型,深度模型,以上三种一般用于链路预测,也称补全

​ 传统实体对齐:基于OWL等价推理,基于相似性计算,使用统计机器学习,众包提高准确性

​ 嵌入实体对齐:平移模型【基于关系三元组进行实体对齐】,图卷积网络

2.2 分类技术

​ 嵌入模块:关系嵌入和属性嵌入【基于三元组嵌入,基于路径嵌入,基于邻域嵌入,属性相关性嵌入】

​ 对齐模块:两个关键问题–选择距离度量【余弦距离,欧几里得距离,曼哈顿距离】,设计推断策略【贪婪策略】

​ 交互模块:组合模式,四种典型设计【变换矩阵,空间校准,参数共享,参数交换】,学习策略【监督学习,半监督学习(自举训练,协同训练)】

3.1 基于度的迭代抽样(IDS)

​ 使24个KGs有相似的聚类系数,具有良好综合性能,可以扩展到大KGs

3.2 语言间连接

​ owl:sameAs【IDS生成数据集,删除低度实体后执行IDS】,删除标签

3.3 数据集评估

​ 在图采样算法基础上设计2种基准线算法:随机对齐抽样RAS【不能保留连通性和度分布,聚类系数低使得嵌入模块难处理实体】,基于PageRank的抽样PRS【更关注高度的实体,性能大于RAS】

4 开源库

​ 松耦合:嵌入模块与对齐模块相互独立,各模块内可自由调用和组合不同技术来开发新方法

​ 重现了12种基于嵌入的实体对齐方法

​ 整合了9个未用于实体对齐的嵌入模型【三个平移模型,三个语义匹配模型,两个深度模型】

​ 整合了2个嵌入模型【基于预训练的多语言单词嵌入】

基于嵌入的知识图实体对齐的基准研究

摘要

实体对齐旨在在引用相同现实世界对象的不同知识图(KGs)中找到实体。KG嵌入技术的最新进展推动了基于嵌入的实体对齐技术的出现,该技术对连续嵌入空间中的实体进行编码,并根据学习到的嵌入度量实体的相似性。本文对这一新兴领域进行了全面的实验研究。我们调查了23种最新的基于嵌入的实体对齐方法,并根据它们的技术和特点对它们进行了分类。我们还提出了一种新的KG抽样算法,通过该算法,我们生成了一组具有各种异构性和分布的专用基准数据集,用于现实的评估。我们开发了一个开源库,包括12种代表性的基于嵌入的实体对齐方法,并广泛地评估这些方法,以了解它们的优势和局限性。此外,对于目前方法尚未探索的几个方向,我们进行了探索性实验,并为未来的研究报告了我们的初步发现。基准数据集、开源库和实验结果都可以在线访问,并将得到适当的维护。

1 介绍

知识图(KGs)以(主体实体、关系、对象实体)或(主体实体、属性、文字值)的形式将事实存储为三元组。这种类型的知识库支持多种应用,例如语义搜索、问题回答和推荐系统[18]。为了促进知识融合,研究人员在实体对齐(通常称为实体匹配或实体分解)方面取得了长足的进展。目标是识别来自不同KGs的实体,它们指向同一个实体,例如DBpedia[40]中的Mount Everest和Wikidata中的Q513[79]。这项任务的传统方法利用了实体的广泛的鉴别特征,例如名称、描述性注释和关系结构[15,31,32,39,70]。主要的挑战在于独立创造的KGs之间的符号、语言和图式异质性。

基于嵌入的实体对齐出现在[10]中,近年来得到了很大的发展[8,9,24,28,57,72,73,77,81,83,93]。该方法基于KG嵌入技术,将KG的符号表示嵌入为低维向量,这样实体的语义关联被嵌入空间[5]的几何结构捕获。前提是这样的嵌入可以潜在地缓解前面提到的异质性并简化知识推理[80]。

在这里插入图片描述

图1描述了基于嵌入的实体对齐的典型框架。它将两个不同的KGs作为输入,并使用owl等源收集它们之间的种子对齐:sameAs链接[10]。然后,在嵌入和对齐模块中输入两个KGs和种子对齐,以获取实体嵌入的对应关系。模块交互有两种典型的组合范式:(i)嵌入模块在两个独立的嵌入空间中对两个KGs进行编码,对齐模块利用种子对齐学习它们之间的映射[9,10,57,58];或者(ii)对齐模块引导嵌入模块将两个KGs表示到一个统一空间,通过强制种子对齐中的对齐实体保持非常相似的嵌入[8,44,72,73,77,81,93]。最后,通过学习的嵌入度量实体相似性。我们可以通过在目标实体嵌入中使用类似欧氏距离的距离度量进行最近邻搜索来预测源实体的对应对象。此外,为了克服种子实体对齐的不足,几种方法[9,73,93]采用半监督学习来迭代增加新的对齐。

然而,基于嵌入的实体对齐作为一个新兴的研究课题,在分析和评估方面还存在一些问题。首先,据我们所知,目前还没有对该领域现状进行总结的工作。基于嵌入的实体对齐的最新发展,以及它的优点和缺点仍有待探索。我们甚至不知道基于嵌入的方法与传统的实体对齐方法相比如何。其次,对于基于嵌入的实体对齐的现实评估,也没有得到广泛认可的基准数据集。可以说,更流行的数据集是DBP15K(使用[8,42,68,72,73,81,83,84,85,87,94])和WK3L(使用[10,44,57,58])。评估的数据集不同,难以对基于嵌入的实体对齐方法进行公平、全面的比较。此外,与现实世界的KGs相比,当前的数据集包含更多的高度实体(即与许多其他实体连接的实体,这相对容易进行实体对齐)。因此,许多方法可以在这些有偏差的数据集上表现出良好的性能。此外,这些数据集只关注异构性的一个方面,如多语言,而忽略了其他方面,如不同的模式和规模。这给理解基于嵌入的实体对齐的泛化和鲁棒性带来了困难。第三,我们发现该领域的研究只有一部分是带有源代码的,这使得在这些方法之上进行进一步的研究变得困难。基于这些问题,迫切需要对基于嵌入的实体对齐方法进行全面、现实的重新评估和深入分析。

在本文中,我们对基于嵌入的实体对齐与开源库进行了系统的实验研究。我们的主要贡献如下:

  • **一个全面的调查。**本文综述了23种最新的基于嵌入的实体对齐方法,并从不同方面对它们的核心技术和特点进行了分类。我们还回顾了每个技术模块的流行选择,提供了该领域的简要概述。
  • **基准数据集。**为了进行公平和现实的比较,我们通过对真实KGs DBpedia[40]、Wikidata[79]和YAGO[61]进行采样,构建了一套五次分割的专用基准数据集,考虑到实体程度、多语言性、模式和规模等各方面的异质性。特别地,我们提出了一种新的采样算法,它可以使一个样本的性质(如度分布)近似于它的源KG。
  • **开源库。**我们使用Python和TensorFlow开发了一个开源库OpenEA1。该库集成了12种具有代表性的基于嵌入的实体对齐方法,它们属于广泛的技术范围。它使用一个灵活的体系结构,使其易于集成大量现有的KG嵌入模型(已经实现了8个代表性的模型),以实现实体对齐。随着新方法的出现,库将适时更新,以促进未来的研究。
  • **综合比较和分析。**我们提供了12种代表性的基于嵌入的实体对齐方法在我们的数据集上的有效性和效率方面的全面比较。我们使用我们的开源库从头开始训练和调整每一种方法,以确保公平的评估。这些结果概述了基于嵌入的实体对齐的性能。为了深入了解每种方法的优势和局限性,我们从不同方面对它们的性能进行了广泛的分析。(章节5)
  • **探索性实验。**除了已有的文献资料,我们还进行了三项实验。我们首先分析了实体嵌入的几何性质,以了解它们与最终性能的潜在联系。我们注意到许多KG嵌入模型没有被用于实体对齐,我们探讨了其中8个流行的模型。我们还将基于嵌入的方法与几种传统方法进行比较,以探讨它们的互补性。
  • 未来的研究方向。基于调查和实验结果,我们对未来的研究方向进行了展望,包括无监督实体对齐、长尾实体对齐、大规模实体对齐和非欧嵌入空间实体对齐。(章节7)

据我们所知,这项工作是第一个系统而全面的基于嵌入的实体对齐实验研究,我们的实验揭示了当前方法在现实实体对齐场景中的真实性能以及优缺点。我们发现的缺点,比如基于关系的方法无法处理长尾实体,以及基于属性的方法在解决属性值的异质性方面的有效性较差,需要重新研究真实实体对齐的真正有效的方法。我们也相信,我们对实体嵌入的几何特性的深入分析为研究在日益强大的方法背后是什么使得面向对齐的嵌入性能以及是什么支持实体对齐性能打开了一个新的方向。我们的基准数据集、库和实验结果都在GPL许可下通过GitHub库公开,以促进可重复性研究。我们认为这些数据集和库将成为未来研究的重要基础资源。随着越来越多的知识驱动应用程序在知识图谱的基础上构建自己的能力,并受益于知识图谱的融合,这项工作将对知识图谱和数据库社区产生深远的影响。

2 准备工作

我们考虑两个KGs KG1和KG2之间的实体对齐任务。让E1和E2分别表示它们的实体集。我们的目标是找到实体SKG1,KG2 = {(e1, e2)∈e1 × e2 | e1 ~ e2}的1对1比对,其中~表示等价关系[39,70]。在许多情况下,对齐的一个小子集S0KG1,KG2⊂SKG1,KG2,称为种子对齐,是预先知道的,并用作训练数据。

2.1 文献概述

2.1.1 知识图嵌入

方法:现有的KG嵌入模型大致可以分为三类:(1)平移模型,例如:, TransE [5], TransH [82], TransR[49]和TransD [33];(ii)语义匹配模型,如DistMult [86], ComplEx [76],HolE [54], SimplE [36], RotatE[71]和TuckER [3];(iii)深度模型,如project[66]、ConvE[13]、R-GCN[63]、KB-GAN[7]和DSKG[25]。这些模型一般用于链路预测。我们推荐有兴趣的读者参考最近的调查[48,80]。一个相关的区域是网络嵌入[26],它学习顶点表示来获取它们的邻近性。然而,网络中的边缘携带着简单的语义。这在数据模型和学习技术上区分了网络嵌入和KG嵌入。

**数据集和评估指标:**FB15K和WN18是KGs[5]链路预测的两个基准数据集。有研究注意到FB15K和WN18存在测试泄漏问题,相应构建了两个新的基准数据集FB15K-237[75]和WN18RR[13]。三个指标在评价中被广泛使用:(i)在排名前m的结果中正确链接的比例(例如,m = 1,称为Hits@m), (ii)正确链接的平均秩(MR), (iii)平均互反秩(MRR)。[1,62]报告了评价链接预测模型的两项工作。

2.1.2 传统对齐任务

**方法:**传统方法主要从两个角度处理实体对齐问题。一种是基于OWL语义规定的等价推理[22,34]。另一种是基于相似性计算,它比较实体的符号特征[39,65,70]。最近的研究也使用统计机器学习[15,31,32]和众包[96]来提高准确性。此外,在数据库领域,重复实体的检测也被广泛研究,即记录链接或实体解析[16,20]。这些方法主要依赖实体的文字信息。

**数据集和评估指标:**自2004年以来,OAEI2(本体对齐评估计划)已经成为本体对齐工作的主要场所。近年来,它还组织了实体对齐的评估跟踪。我们没有观察到任何基于嵌入式的系统参与这一轨道。首选的评价指标是精确度、召回率和f1评分。

2.1.3 Embedding-based实体对齐

**方法:**许多现有的方法[10,47,57,58,72,73,77,93]使用平移模型(如TransE[5])学习实体嵌入,以基于关系三元组对齐。最近的一些方法[8,42,81,83,85,84,88,88,94]采用了图卷积网络(GCNs)[38,78]。此外,一些方法结合了属性嵌入和值嵌入[9,28,72,77,83,84,87,90]。我们将在2.2节详细阐述这些方法的技术。此外,也有一些方法用于(异构信息)网络对齐[29,44,89]或跨语言知识投影[56],这些方法也可以用于实体对齐。值得注意的是,有两项研究[14,52]设计了基于嵌入的数据库实体解析方法。它们基于词的嵌入表示实体的属性值,并利用嵌入距离对实体进行比较。由于不同的KGs通常是用不同的模式创建的,因此很难满足这些需求。因此,它们不能应用于KGs的实体对齐。

**数据集和评估指标:**据我们所知,目前还没有被广泛认可的基准数据集来评估基于嵌入的实体对齐方法。可以说,更多使用的数据集是DBP15K[72]和wk3l[10]。然而,图2显示了它们的度分布和平均度与现实世界的KGs有很大的不同。与链路预测类似,主要使用Hits@m、MR和MRR作为评价指标,其中应强调Hits@1,因为它相当于精度。

图2:在以前的方法中使用的两个流行数据集DBP15K[72]和WK3L[10]以及我们贡献的数据集EN-FR15K (V1)的度分布和平均度。x轴表示度,y轴表示实体的百分比,即度。这些数据集都是从DBpedia[40]中提取的,但是DBP15K和WK3L的度分布与DBpedia有很大的不同,平均度也较大。我们的数据集保留了与DBpedia相似的程度分布。

2.2 分类的技术

表1通过分析它们的嵌入和对齐模块以及它们交互的模块,对23种最近的基于嵌入的实体对齐方法进行了分类。对于表示方法,我们使用大写的书法字母来表示集合,用黑体字母表示向量和矩阵。

2.2.1 嵌入模块

嵌入模块试图将KG编码到低维嵌入空间。根据三元组的类型,我们将KG嵌入模型分为两类:关系嵌入和属性嵌入。前者利用关系学习技术来捕获KG结构,后者利用实体的属性三元组。所有现有的方法都采用了关系嵌入。下面是三种具有代表性的实现方法:

**基于三元组的嵌入捕获关系三元组的局部语义。**许多KG嵌入模型都属于这一类,它定义了一个能量函数来衡量三元组的合理性。例如,TransE[5]将一个关系解释为从头部实体嵌入到尾部的转换。关系三元组(e1, r1, e2)的能量为φ(e1, r1, e2) = k e1 + r1−e2 k,(1)其中k·k表示向量的L1-或l2 -范数。TransE优化了边际排名损失,以预先定义的边际将正的三元组与负的三元组分开。损失函数的其他选择包括逻辑损失[54,76]和基于限制的损失[73,91]。负三元组可以使用均匀负采样或截断采样产生。

**基于路径的嵌入利用了跨越关系路径的关系的长期依赖性。*关系路径是一组头尾相连的关系三元组,例如(e1, r1, e2), (e2, r2, e3)。IPTransE[93]通过推断直接关系和多跳路径之间的等价性来建模关系路径。假设有一个直接关系,从e1到e3。IPTransE认为r3的嵌入与路径嵌入相似,路径嵌入被编码为它的组成关系嵌入的组合:r∗ = comb(r1, r2),其中comb(·)为如sum等序列组合操作。最小化 r3 以使它们彼此接近。然而,IPTransE忽略了实体。另一项工作,RSN4EA[24],修改了循环神经网络(RNNs),一起建模实体和关系的顺序。

**基于邻域的嵌入使用了由大量实体之间的关系构成的子图结构。**GCNs[6, 12, 38, 63]非常适合对这种结构建模,最近已被用于基于嵌入的实体对齐[8,42,81,83,84,85,87]。一个GCN由多个图卷积层组成。设A表示KG的邻接矩阵,H(0)为特征矩阵,每一行对应一个实体。从第i层到(i+1)第i层[38]的典型传播规律为H(i+1) = σ(ˆD−12ˆAˆD−12 H(i)W),(3)其中ˆA = A+ i, i为单位矩阵。ˆD是ˆA的对角度矩阵。W为可学习权矩阵。σ(·)为tanh(·)等激活函数。几种方法[9,28,72,77,81,83,85,87,90]使用属性嵌入增强实体的相似性度量。属性嵌入有两种方式:

属性相关性嵌入考虑的是属性之间的相关性。如果属性经常被一起用来描述一个实体,那么它们就被认为是相关的。例如,经度与纬度高度相关,因为它们通常形成一个坐标。JAPE[72]基于相似实体应该具有相似相关属性的假设,利用这种相关性进行实体对齐。对于两个属性a1, a2,它们相关的概率是Pr(a1, a2) = sigmoid(a1·a2),(4),其中属性嵌入可以通过最大化所有属性对的概率来学习。这里,属性相关性嵌入不考虑文字值。

文字嵌入将文字值引入属性嵌入。AttrE[77]提出了一种字符级编码器,能够处理训练阶段中看不到的值。设v = (c1, c2,…, cn)是一个有n个字符的文字,其中ci(1≤I≤n)是第I个字符。AttrE将v嵌入为v = comb(c1, c2,…)cn)。(5)

通过这种表示,文字被视为实体,像TransE这样的关系嵌入模型可以用来从属性三元组中学习。但是,基于字符的文字嵌入在跨语言设置中可能会失败。

2.2.2 对齐模块

对齐模块使用种子对齐作为标记训练数据,以捕获实体嵌入的对应关系。两个关键是选择距离度量和设计对齐推断策略。

**距离度量:**余弦距离、欧几里得距离和曼哈顿距离是三个广泛使用的度量。在高维空间中,一些向量(称为集线器[60])可能反复出现,作为其他向量的k近邻,即所谓的集线器问题[11]。有关更多细节,请参阅第6.1节。

**对齐推理策略:**目前所有的搜索方法都使用贪婪搜索。给定KG1和KG2对齐和距离度量π,对于每个实体e1∈e1,它通过˜e2 = arg mine2∈e2 π(e1, e2)找到对齐的实体。不同的是,集体搜索[37,51]的目的是找到一个全局最优对齐,使P (e1,e2)∈SKG1,KG2 π(e1, e2)最小化。它可以建模为二部图中的最大权值匹配问题,使用KuhnMunkres算法(N = |E1| + |E2|)在O(n3)时间内求解,也可以使用启发式算法[30]将其简化为线性时间。另一个解决方案是稳定婚姻算法[50]。如果不存在一对双方都更喜欢对方而不是当前对齐的实体,那么E1和E2之间的对齐就能满足稳定的婚姻。它的方案花费O(n2)时间[17]。

2.2.3 交互模块

**组合模式:**在实体对齐中协调KG嵌入的四种典型设计如下:嵌入空间变换将两个KGs嵌入到不同的嵌入空间中,并利用种子对齐学习两个空间之间的变换矩阵M,实现对每个(e1, e2)∈S0KG1,KG2的Me1≈e2。另一种组合模式是将两个kg编码到一个统一的嵌入空间。嵌入空间校准使每个(e1, e2)∈S0KG1, kg2的k e1−e2 k最小,以校准种子对齐的嵌入。参数共享是直接配置e1 = e2的两种特殊情况,参数交换是通过交换它们的三元组中的种子实体来生成额外的三元组作为监督。例如,给定(e1, e2)∈S0KG1,KG2和KG1的关系三元组(e1, r1, e01),参数交换产生一个新的三元组(e2, r1, e01),并将其作为一个真正的三元组输入KG嵌入模型。参数共享和交换方法都没有引入新的损失函数,但后者产生了更多的三元组。

学习策略。根据如何处理已标记数据和未标记数据,学习策略可以分为以下几种:

监督学习利用种子对齐作为标记训练数据。对于嵌入空间变换,采用种子对齐的方法学习变换矩阵。为了空间校准,它常让对齐的实体具有相似的嵌入。但是,种子对齐的获取是昂贵的和容易出错的,特别是对跨语言的KGs。

半监督学习在训练中使用未标记数据,例如:,自我训练[73,93]和协同训练[9]。前者主动提出新的对齐方式来增加种子对齐;后者将两种从不相交的实体特征中获得的模型结合起来,交替地增强彼此的对齐学习。虽然OTEA[58]和KECG[42]声称它们是半监督方法,但它们的学习策略并没有增加种子对齐。在本文中,我们没有将它们视为标准的半监督学习。

无监督学习不需要训练数据。我们没有观察到任何基于嵌入的实体对齐方法使用无监督学习。尽管IMUSE[28]声称它是一种无监督的方法,但它实际上使用了一种预处理方法来收集具有高字符串相似性的种子对齐。它的嵌入模块仍然需要种子对齐。

3 数据集生成

正如前面提到的,当前广泛使用的数据集与现实世界的KGs有很大的不同,而且由于候选空间大且未分区,基于嵌入的方法很难在完整的KGs上运行。因此,我们对真实的KGs进行抽样,并提供两个数据尺度(15K和100K)。

3.1 基于degree的迭代抽样

在构建我们的数据集时,我们考虑了五个因素:源KGs、参考对齐、数据集大小、语言和密度,其中最后一个对构建数据集更具挑战性。具体来说,我们希望从源KG生成一个特定大小的数据集,这样它们的实体程度分布的差异不会超过预期。困难在于从源KG中删除一个实体也会改变其邻近实体的连通性。

提出了一种迭代的基于度的采样(IDS)算法,该算法通过参考对齐同时删除两个源数据集中的实体,直到达到所需的大小,同时保持每个采样数据集的程度分布与源数据集相似。算法1描述了采样过程。在迭代过程中,当前数据集中度为x的实体的比例(P (x))不能总是等于原来的比例Q(x)。我们通过dsize(x,µ)=µ?1 + P (x)−(x) ?来调整实体规模,其中,µ为基本步长(见第7行)。此外,我们不希望删除对整体度分布影响较大的实体,如度高的实体。为了实现这一点,我们利用PageRank值来衡量一个实体被删除的概率(第8行)。

我们使用Jensen-Shannon (JS)散度[46]来评估两个度分布的差异(第12行)。给定两个度分布Q, P,其js散度为:

式中Q(x)和P (x)分别表示在、Q,P中度为x (x = 1,…n)的实体的比例。且M = Q+ p2。Q与P之间一个小的JS发散?存在相似的度分布。我们设定期望?≤5%。IDS开销最大的部分是在删除实体的迭代过程中计算PageRank权重。通过[2]近似算法,可以将其扩展到非常大的KGs。

3.2 数据集的概述

我们选择了三个知名的KGs作为我们的来源:DBpedia (2016-10) [40], Wikidata(20160801)[79]和YAGO 3[61]。另外,我们考虑DBpedia的两个跨语言版本:英语-法语和英语-德语。我们遵循[10,72,73,81,93]中的约定,使用IDS算法生成实体为15K和100K的两种大小的数据集。具体来说,我们使用DBpedia的语言间链接和三个KGs中的owl:sameAs来检索引用实体对齐。为了兼顾效率和删除安全性,我们设置15K为µ= 100,100K为µ= 500。

表2列出了数据集的统计数据。我们为每一对源KGs生成两个版本的数据集,直接使用IDS算法得到V1。对于V2,我们首先在源KG中随机删除低度(d≤5)的实体,使平均度翻倍,然后执行IDS来拟合新的KG。因此,V2的密度是V1的两倍,并且更类似于现有的数据集[10,72]。图3显示了EN-FR-15K (V1, V2)和EN-FR-100K (V1, V2)的度分布和平均度。我们的15K和100K数据集更接近于源KGs。

对于每个数据集,我们还提取实体的属性三元组,以满足某些方法的输入要求[9,28,72,77,81,83,85,90]。考虑到DBpedia、Wikidata和YAGO从非常相似的来源(主要是Wikipedia)收集数据,对齐的实体通常具有相同的标签。它们将成为实体对齐的“棘手”特性,并影响实际性能的评估。根据[95]的建议,我们删除实体标签。

按照惯例,我们将数据集分为训练集、验证集和测试集。详情见第5.1节。

3.3 数据集评估

我们评估IDS和数据集的质量。请注意,生成实体对齐数据集是一项非常重要的工作,因为合格的数据集需要拥有一些特征,例如良好的连接性(由于许多方法依赖于图结构),与原始KGs相似的程度分布(用于现实的实体对齐场景),以及足够的对齐(用于训练/验证/测试)。据我们所知,目前还缺乏专门解决这个问题的抽样方法。为了进行评估,我们在现有图采样算法[41]的基础上设计了两种基线方法:

  • 随机对齐采样RAS,首先在两个KGs之间随机选取一个固定大小(例如15K)的实体对齐,然后提取头部和尾部实体都在采样实体中的关系三元组。
  • 基于PageRank的抽样(PRS)首先根据PageRank评分从一个KGs中抽取实体(未参与任何对齐的实体将被丢弃),然后从另一个KGs中提取这些实体的对应对象。

表3列出了与源KGs(关系三元组)相比,由RAS、PRS和我们的IDS生成的EN-FR-15K (V1)数据集的性能。除了平均度和JS-divergence之外,我们进一步考虑了两个度量:孤立实体百分比[19]和聚类系数[41]。RAS的数据集比源数据集稀疏得多,因为随机抽样不能保留连通性和度分布[69]。它的聚类系数很低,并且包含许多独立的实体,嵌入模块通常很难处理这些实体。PRS更关注高度实体,比RAS具有更好的性能。然而,由于平均度低、JS值高、孤立实体的比例高,数据集还远远不能令人满意。这是因为它的实体选择程序只适用于一个KG,而不是两个KG。不同的是,IDS同时考虑两个KGs的程度分布。它倾向于对两个具有相似程度的对齐实体进行抽样。因此,我们的数据集的两个KGs具有相似的聚类系数。由于采样数据集比源数据集小得多,因此很难很好地保持所有这些属性。IDS具有良好的综合性能。

图3:与DBpedia(源KG)相比,我们采样数据集EN-FR-15K (V1, V2)和EN-FR-100K (V1, V2)的度分布和平均度

表3:RAS、PRS和IDS生成的EN-FR-15K (V1)数据集的比较

4 开源库

我们使用Python和TensorFlow开发了一个开源库,即OpenEA,用于基于嵌入的实体对齐。软件架构如图4所示。我们的设计目标和特点包括三个方面:

**松耦合。**嵌入和对齐模块的实现是相互独立的。OpenEA提供了一个带有预定义输入和输出数据结构的框架模板,使这些模块成为一个完整的管道。用户可以在这些模块中自由调用和组合不同的技术来开发新的方法。

**功能和可扩展性。**OpenEA实现了一组必要的函数作为其底层组件,包括嵌入模块中的初始化函数、损失函数和负采样方法;交互模式中的组合与学习策略以及对齐模块中的距离度量和对齐推断策略。在这些组件之上,OpenEA还提供了一组灵活的高级功能,这些功能带有调用这些组件的配置选项。这样,通过添加新的配置选项,可以很容易地集成新的功能。

**现成的方法。**为了方便OpenEA的使用并支持我们的实验研究,我们尽最大努力集成或重建了12种具有代表性的基于嵌入的实体对齐方法,这些方法属于广泛的技术范围,包括MTransE、IPTransE、JAPE、KDCoE、BootEA、GCNAlign、AttrE、IMUSE、SEA、RSN4EA、MultiKE和RDGCN。MTransE、JAPE、KDCoE、BootEA、GCNAlign、AttrE、RSN4EA、MultiKE和RDGCN的源代码集成实现,IPTransE、IMUSE和SEA由我们自己重建。此外,我们整合了几个关系嵌入模型,这些模型尚未被探索用于实体对齐,包括三个平移模型TransH [82], TransR[49]和TransD [33];三种语义匹配模型HolE[54]、SimplE[36]和RotatE [71];以及两个深度模型project[66]和ConvE[13]。我们还整合了两个属性嵌入模型AC2Vec[72]和Label2Vec[90],它们是基于预训练的多语言单词嵌入[4]。TransH、TransR、TransD和HolE参考开源工具包OpenKE[27]开发;剩下的部分是基于它们的源代码实现的。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

OneTenTwo76

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值