论文阅读_无监督知识图对齐PRASE

最新推荐文章于 2022-09-04 15:29:22 发布

xieyan0811

最新推荐文章于 2022-09-04 15:29:22 发布

阅读量1.4k

点赞数

分类专栏：论文阅读文章标签：人工智能神经网络

本文链接：https://blog.csdn.net/xieyan0811/article/details/124068830

版权

论文阅读专栏收录该内容

89 篇文章 6 订阅

订阅专栏

介绍

英文题目：Unsupervised Knowledge Graph Alignment by Probabilistic Reasoning and Semantic Embedding
中文题目：基于概率推理和语义嵌入的无监督知识图对齐
论文地址：https://arxiv.org/abs/2105.05596v1
领域：自然语言处理，知识图谱
发表时间：2021
作者：腾讯天衍实验室
出处：IJCAI（国际人工智能联合会议）
被引量：1
代码和数据：
https://github.com/qizhyuan/PRASE-Python
https://github.com/dig-team/PARIS
阅读时间：22.04.08

泛读

针对问题：实体对齐（不是本体对齐）
结果：效果优于之前模型
核心方法：提出PRASE，基于概率推理和语义嵌入，使用不断更新种子的方法迭代训练上述两个子模型。
难点：先需要了解一下PARIS模型
泛读后理解程度：70%
（看完题目、摘要、结论、图表及小标题）

精读

摘要

目前常用的实体对齐方法包括：基于词嵌入的对齐、常识推理和字典匹配。前者的模型常常依赖有监督学习，缺乏恰当的推理，难以避免逻辑错误的映射；后者解决了推理问题，但较少使用图结构和实体上下文。本文致力于结合二者。

1. 介绍

实体对齐可用于把局部的知识图结合成更大的知识图，具体的工作是需要找到不同图中含义相同的实体、关系等。

图嵌入将图中实体关系等信息编码到低维空间，使其包含的语义信息作为进一步探索的工具。对齐问题的解决方法常常是：先将待对齐的知识图嵌入到一个向量空间中，然后通过计算向量距离或相似性来发现映射。

这些基于嵌入的模型常常需要一定数量的知识映射（对齐种子）来进行训练，而种子标注需要大量人力。种子的数量和抽样分布对对准性能有很大影响。而且先编码后映射的方法可能忽略整体性，从而导致映射错误。

使用逻辑推理或者字典映射，本体对齐方法是相对传统的技术，比如2012年的PARIS利用概率归因和字典映射方法，通过名字匹配一些初始特征之后，通过迭代概率推理来推断实体、关系的等价性。因此无需训练，不依赖种子，更高效和可扩展。但它在开发和利用图形结构和其他上下文信息方面较弱。

本文致力于结合上述两种模型，提出了无监督的迭代框架PRASE。其中的PA是概率推理模块（probablistic reasoning），SE是词嵌入（semantic embedding）模块。PR基于之前PARIS模型，SE用于捕捉图结构和实体的上下文，PR从SE处得到映射和实体嵌入。

本文主要贡献如下：

提出无监督的对齐框架PRASE，用迭代方法结合了两种模型
使用PARIS和不同的词嵌入模块实现模型
在多个数据集上达到比之前更好的效果

2. 预备知识

背景和相关工作

2.1 问题表述

设符号：E是边，R是关系，A是属性，V是属性值。将图定义为G=(E,R,A,V,TR,TA)，其中TR指关系三元组，TA指属性三元组：

问题定义成对两个图G和G’中实体的对齐方法：

"≡"指的是两个实体指向现实世界中的同一对象。

2.2 PARIS方法

属性三元组和关系三元组类似，因此定义：

并且定义了关系的度量函数及其反向函数：

其中|.|表示集合的基数（集合中的元素数量），上述函数用于计算头实体和尾实体的唯一性。当F®=1时，说明其头实体是唯一的，请注意：F和F-1具有不变性，因此，可提前计算。

PARIS（2012年论文，用于对齐实例、关系、类，适用于大型图）可以交替计算实体映射和包含关系，不同图中的两个实体h和h’相等的概率P(h ≡h′)，计算如下：

其中(h,r,t)是图中的三元组，式-2的大概意思是：在确定了尾实体相等的概率、关系r的逆函数F-1，以及r与r’包含关系的概率后，即可计算头实体h与h’是同一实体的概率。
其中P(r ⊆ r′)表示r是r’子集的概率：

式-3假设已知头实体和尾实体分别指向同一实体的概率，分母计算所有h,t，分子计算包含h,r,t的三元组。

可以看到计算P(r ⊆ r′)需要P(h ≡h′)，而P(h ≡h′)又需要P(r ⊆ r′)，二者相互依赖，因此需要迭代优化。一开始，P(r ⊆ r′)可被设置为一个很小的值，比如0.1；或者，当实体是属性时，如果文字描述相同则设为1，否则为0；更高级的方法是用实体间的编辑距离作为其评分。

在每次迭代时，式-2计算出了实体相等的概率，式-3又计算了关系的包含关系，迭代直至收敛。最终PARIS输出的是实体映射表记作 ̃YP，Po(e≡e‘)，(e，e’)∈Yp，上标o表示输出。

2.3 基于嵌入的知识图对齐

基于嵌入的知识图对齐一般分两步：先学习词嵌入（如使用TransE或图神经网络），在不同图中使用同一向量空间编码，通过参数共享、参数互换、嵌入变换、嵌入校准等策略实现；然后，基于度量实体嵌入的相似性来预测实体映射。

MTransE是比较典型的嵌入方法，通过以下损失函数优化：

其中||.||计算欧几里得范数，h,r,t都是编码后的低维向量，处于同一向量空间。一般情况下需要种子训练模型：

最小化损失：

其中e和e’是实体嵌入，维度为m，M是大小mxm的转移矩阵。通过学习M，G可被转换到G’所在的空间。最终实现实体映射记作 ̃YE，其相似度在[0,1]之间。记作: S(e ≡ e′),(e,e′) ∈ ̃YE。通过该方法可以进行近邻搜索。

3. 框架

3.1 PRASE 概览

模型框架如图-1所示，主要由概率模型PR和嵌入模型SE组成。PR用于计算实体映射 ̃YP 及其概率Po。然后将高置信度的映射作为种子，传入嵌入模型SE，SE通过这些种子来训练模型，然后SE模型对于PR模型输出的未对齐的实体 ̃UP进行预测；之后，将SE预测结果实体映射表 ̃YE和相似度得分S(e ≡ e′)，以及实体嵌入结果：

作为PR模块的输入，再进行下一次迭代。以上过程迭代K次，PR模型最终输出实体映射表 ̃YP。

3.2 概率推理模型

PR模块首先利用式-1计算出关系的函数F及其反向函数，然后利用式2式3计算两个实体的相似概率。PR与SE交替调用，在k次迭代时（k>0），将前次输出作为本次的输入

i指输入，o指输出，每次迭代时PR的输入如下：

P指的是PR模块的映射概率。当前一个PR模型认为两实体对齐时，将其为同一实体的概率以权重a1代入；当SE模型认为二者对齐且相似度大于阈值δ1（δ1,a1,a2均为超参数，取值范围在0-1之间），将其相似度以权重a2代入；否则设其概率初值为0。

为了更直接地利用SE输出的嵌入信息，在迭代过程中，将PARIS中的式-2变为式-5：

利用超参数β（取值(0,1)）来平衡词向量相似度和PARIS计算的概率。sim()计算cosine距离，其取值在[0,1]。

3.3 语义嵌入模块

在第k次迭代时，利用上一次PR产生的对齐数据集Yk-1，从中提取出置信度高（超参数δ2作为阈值）的对齐数据作为种子Sk来训练SE，尽管很多时候种子中包含不正确的数据，但是它也能带来大量的有用信息。用训练好的SE代入未对齐的实体U，它将输出与U最相似的实体，以及词嵌入。任何词嵌入方法都可以用作SE。

PRASE流程如算法-1所示：

对于两个图G和G’，设置迭代次数K。
line 1：用式-1初始化PR模块（通过两图中三元组计算关系函数F）
line 2：PR处理：用式-2和式-3依次计算实体相似概率和关系的包含
line 3：产生了初始的对齐数据集Y0和未对齐数据集U0。
line 4：开始迭代
line 5：基于前次对齐数据集Yk-1产生种子
line 6：使用种子训练SE模型
line 7：用SE模型对前次未对齐数据Uk-1预测
line 8：产生了本次预测结果YE和嵌入结果EEk
line 9：使用式-4初始化PR模型
line 10：PR处理，计算式-5和式-3
line 11：产生了本次的对齐数据集Yk和未对齐数据集Uk。
line 12：继续迭代
line 13：最终输出Y

4. 评价

4.1 数据集

OpenEA 数据集：常用的用于评测图对齐的数据集。由DBpedia, YAGO, and Wikidata组成，文中评测使用其V2版本，包含跨语言数据集和跨知识图谱数据集，另外，还使用了相对困难的数据集D-W-15K-V2。
下载地址：https://github.com/nju-websoft/OpenEA

工业数据集：MED-BBK-9K是Zhang在2020年提出的数据集，包含专业医学数据集和百度百科医学数据（中文），约几十万个三元组。形如：

下载地址：https://github.com/ZihengZZH/industry-eval-EA
解压后即可看到三元组数据（又解锁一个中文的医学图谱数据及其对齐算法，开心）。

4.2 实验设置

最上边部分是嵌入模型，第二部分是推理模型，STR-Match和 EMB-Match计算实体间的相似度，最后一部分是PRASE模型分别使用BootEA和MultiKE模型作为SE。

实验环境是： NVIDIATesla M40 GPU, and CentOS 7.2，128G内存，2.4GHz CPU。对于4个100K的数据集的训练速度是平均1697秒，BootEA和MultiKE分别是24727和3198。

表-3和表-4分别展示了消融实验和不同嵌入模型的对比效果。

图-5展示了不同迭代次数对模型的影响，更多的迭代可以提升模型效果，但K也不用设得太大。

xieyan0811

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
论文阅读_无监督知识图对齐PRASE

介绍英文题目：Unsupervised Knowledge Graph Alignment by Probabilistic Reasoning and Semantic Embedding中文题目：基于概率推理和语义嵌入的无监督知识图对齐论文地址：https://arxiv.org/abs/2105.05596v1领域：自然语言处理，知识图谱发表时间：2021作者：腾讯天衍实验室出处：IJCAI（国际人工智能联合会议）被引量：1代码和数据：https://github.com/qizh
复制链接

扫一扫

专栏目录