阅读记录：SimKGC: Simple Contrastive Knowledge Graph Completion withPre-trained Language Models

憨化龙猫

已于 2024-01-24 09:57:29 修改

阅读量1.9k

点赞数 34

分类专栏：论文阅读记录文章标签：知识图谱语言模型人工智能

于 2024-01-22 17:48:06 首次发布

本文链接：https://blog.csdn.net/yangmoua/article/details/135702999

版权

期刊：Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)

一、介绍

现有的知识图谱补全（KGC）方法可以分为两类：基于嵌入的方法和基于文本的方法。

基于嵌入的方法将每个实体和关系映射到低维向量，而不使用任何辅助信息。例如：TransE (Bordes et al., 2013)、TransH (Wang et al., 2014)、RotatE (Sun et al., 2019b) 和 TuckER (Balazevic et al., 2019) 等。

基于文本的方法结合了用于实体表示学习的可用文本，因为可以访问额外的输入信息，直观上应该是要优于基于嵌入的方法的，事实上是落后的。

本文假设是因为对比学习的效率低下，是导致这种性能下降的关键问题。引入三种负采样：in-batch negatives, pre-batch negatives, and self-negatives.采用双编码器而不是交叉编码器架构，可以通过使用更大的batch-size来增加批内负采样的数量。先前批次的向量被存储充当批前负采样（pre-batch negatives）。另外，挖掘强负采样有利于对比学习。论文表示头部实体本身可以充当强负采样，称之为“self-negatives”。

结果可使得，负样本量增加到数千的规模，并将损失函数从margin-based ranking loss更改为 InfoNCE，这可以使模型专注于强负样本。

基于文本的KGC的一个优点就是支持归纳实体表征学习。在训练过程中看不到的实体仍然可以进行适当的建模，而基于嵌入的方法（例如 TransE）只能在转导设置（transductive setting）下进行推理。如果通过图中的短路径连接，则两个实体更有可能相关。根据经验发现基于文本的模型严重依赖语义匹配，并在某种程度上忽略了这种拓扑偏差。通过提高头实体的 k 跳邻居的分数，提出了一种简单的重新排名策略。

二、方法

2.1 记号定义

本文定义标记不变，KGC的链接预测任务是在给定不完整的G的情况下推断缺失的三元组。在广泛采用的实体排名评估协议下，尾部实体预测（h，r，？）需要对给定h和r的所有实体进行排名，类似与头实体预测（？，r，t）。另添加一个逆三元组 $(t,r^{-1},h)$ ，其中 $r^{-1}$ 是r的逆关系。基于这种重新表述，只需要处理尾部实体预测问题.