多类型实体的图对齐_CGMuAlign

最新推荐文章于 2022-09-06 09:00:37 发布

xieyan0811

最新推荐文章于 2022-09-06 09:00:37 发布

阅读量471

点赞数

分类专栏：论文阅读文章标签：知识图谱人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xieyan0811/article/details/124780086

版权

论文阅读专栏收录该内容

90 篇文章 7 订阅

订阅专栏

英文题目：Collective Multi-type Entity Alignment Between Knowledge Graphs
中文题目：基于知识图的集合多类型实体对齐
论文地址：https://assets.amazon.science/ff/7a/b96282984a0fbe5e31a8fcf68d17/scipub-1202.pdf
领域：知识图谱，实体对齐
发表时间：2020年
作者：Qi Zhu，伊利诺伊大学，亚马逊
出处：the web conference
被引量：17
代码和数据：https://github.com/GentleZhu/CG-MuAlign
阅读时间：2022.04.25

本文特点

文中的一个重要思想是：认为被对齐的图中的知识都是不完备的，所以在图间对齐时，主要对齐对些能齐上的，忽略那些对不上的；同时结构了自注意力模型，对不同关系分配不同权重。

介绍

实体对齐的目标是识别不同图中的同一实体。不同的图在建构的时候由于目标不同，各有偏重。比如图-1中的左右两张图：

图中的Aditya Raj是同一实体，在左图中他即是作者也是编辑，而右图中它是作者和制作人，即：在不同图中实体有不同的类别。使用不同策略，对齐结果也不同。

实体对齐中常见的问题包括：使用图嵌入做对齐，忽略了丰富的属性信息，在传导模型中，加入新实体需要重新训练模型；模型常常在训练数据丰富时效果较好，而在稀疏和缺少的类型中效果较差（如有些数据没有标签）。

作者希望用GNN方法解决上述问题，GNN方法通过逐步整合邻域，来实现归纳模型并计算之前没出现过的实体。测试后发现效果并不好，原因是之前方法认为节点完全一致的情况下才算对齐，两图的偏重不同就可能对不齐。比如图-1中IMBD包含编辑、导演、演员信息，而Freebase中包含导演和制作人信息。

所以文中提出了集成决策，设计了注意力机制在图间更关注实体的共同邻居作为正向证据。比如图-1中左图出现四部电影，右图出现两部电影，用之前的方法，不同邻居将产生不同节点嵌入，而文中方法给共同的邻居电影以更大权重。对于负例，使用自注意力机制，如两个同系列的电影可能有相同的作家、导演和演员，但年份和长度不同，对不同边给予不同权重。

主要贡献

提出基于GNN的CG-MuAlign框架，支持对齐不同类型。
结合了自注意力和图交叉注意力方法。
优化算法，使模型能在大规模数据集上使用。
在数据量大，标注量小的情况下，模型效果好。

算法

整体结构

定义图为： G = (V, E, T , R) ，求节点映射 φ : V → T和边映射 ψ : E → R。注意这里的T指的不是三元组，而是节点类型。用S表示对齐种子（标注数据），只有少量数据被标注。

模型包含两个GNN编码器和一个对齐层。编码器从节点v得到k跳子图用于收集邻居信息：

对于节点i，利用它的邻居们j在前一层的表示，计算它的表示z，再利用z和i节点本身在上一层的表示求它在本层的表示：

两个图的GNN结构和参数都相同，经过多层最终输出为两个GNN的隐藏层h，计算距离损失函数：

这个公式之前文章中讲过，γ为加大正例和负例间的距离。d是二范数的距离函数。模型结构如图-3所示：

集成GNN

首先，根据边的类型对i的邻居编组Ni,r，使用不同转换函数（参数矩阵W），比如图-1左图作为作者有三个邻居，作为编辑有一个邻居，对每种邻居计算z：

当图-2中一个人同时是作者和制作人时，上述方法可描述不同角色。

设节点级的注意力参数为a，边级的注意力参数为b，使用以下聚合方法，计算整体的z：

然后计算第k层的隐藏层

其中||指串联，上述方法命名为COLLECTIVEAGG。
每个encoder堆叠了多个层，k-1层的输出作为k层的输入，第0层的输入是节点特征，允许不同类型特征有不同长度，所以第一层的W大小可能不同，后面层长度都一样。

节点级的交叉图注意力

图结构差异主要是由知识图中的不完备性引起的。在CG-MuAlign中，对于在两图中都有的邻居给予更高的权重。设p与q是节点的邻居对 (p, q) ∈ Ni × Ni′ ，式-4中的a计算如下：

上式对ap和aq进行了归一化处理。a越大说明p和q越像。如图-2a所示，算法给作为writer两项更高权重（红框），所以说图间注意力更偏重正例。

边级别的关系感知自注意力

如果邻居只依赖交叉注意力聚合，则难以利用负面证据。比如在亚马逊音乐和维基百科中都有歌曲《Radioactive》，交叉注意力发现它们在图中的作者制作人等多数信息都相同，但演唱者不比，所以不是同一个实体，这说明对于歌曲，演唱者比作者制作人更重要。用GAN类似方法，计算边的注意力：

注意这里的a向量是注意力权重，而不是上面的a(alpha)。

扩展

上述方法训练和应用运算量大，利用下面三种方法优化。

简化计算
基于开放世界假设，设Gu为完全知识图，而需要对齐的G和G’各有包含Gu的部分知识，设K为跳数。经过一系列推理（此处略过），说明随着K的增长，集合能力（上面公式中的集合方法）的期望呈几何衰减，服从长尾分布，所以只需要在最后一层使用集合方法以节约算力，其它均使用平均聚合方法：

小批量训练和对邻居采样
传统图模型使用全局训练，在大数据集上无法应用。文中方法在训练数据的正样本对中采样，并构建K跳的子图，以节约算力。
另一个技巧是尽量对关系重要的邻居采样，以提升集合能力。比如一部电影一般是一个导演多个演员，所以导演携带更多信息。对不同关系的采样概率设置如下：

生成候选集
上述方法解析了训练算力问题，而预测时，可能需要面对数以百万计的实体。在生成候选集时，对于每个测试节点，使用几个强关键字(如人名和出生日期)来收集可能的匹配实体，并使用CG-MuAlign来预测候选对中的比对得分。

实验

实验使用两个大数据集：电影数据和音乐数据集。

对比基线也都是非常流行的模型

还对比了只使用Self或Cross的效果

与之前深度学习模型相比运行时间短。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

xieyan0811 CSDN认证博客专家 CSDN认证企业博客

码龄17年

611: 原创

1万+: 周排名

708: 总排名

247万+: 访问

: 等级

2万+: 积分

4771: 粉丝

2185: 获赞

284: 评论

6761: 收藏

私信

关注

热门文章

分类专栏

大模型 44篇
论文阅读 90篇
机器学习 40篇
研究思考 1篇
深度学习 45篇
算法实战 28篇
Pytorch 14篇
时序 3篇
Docker 4篇
股票数据分析 9篇
大数据 30篇
少儿编程 3篇
移动开发 112篇
linux 34篇
工具 45篇
搭建网站和服务 9篇
Arduino 18篇
Python 26篇
图形图像 20篇
区块链
随笔 9篇
自然语言处理 28篇
未发 1篇

最新评论

论文阅读_检索增强生成 RAG 综述
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
Obsidian+llama3：终于搭建了自己的知识库
艾学习: 有使用案例吗？
论文阅读_OpenAI嵌入+Lucene
征途黯然.: The article is fantastic, and 论文阅读OpenAI嵌入Lucene is truly impressive.
论文阅读_基于嵌入的Facebook搜索
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读_基本于文本嵌入的信息提取
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。