期刊:Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)
一、介绍
现有的知识图谱补全(KGC)方法可以分为两类:基于嵌入的方法和基于文本的方法。
基于嵌入的方法将每个实体和关系映射到低维向量,而不使用任何辅助信息。例如:TransE (Bordes et al., 2013)、TransH (Wang et al., 2014)、RotatE (Sun et al., 2019b) 和 TuckER (Balazevic et al., 2019) 等。
基于文本的方法结合了用于实体表示学习的可用文本,因为可以访问额外的输入信息,直观上应该是要优于基于嵌入的方法的,事实上是落后的。
本文假设是因为对比学习的效率低下,是导致这种性能下降的关键问题。引入三种负采样:in-batch negatives, pre-batch negatives, and self-negatives.采用双编码器而不是交叉编码器架构,可以通过使用更大的batch-size来增加批内负采样的数量。先前批次的向量被存储充当批前负采样(pre-batch negatives)。另外,挖掘强负采样有利于对比学习。论文表示头部实体本身可以充当强负采样,称之为“self-negatives”。
结果可使得,负样本量增加到数千的规模,并将损失函数从margin-based ranking loss更改为 InfoNCE,这可以使模型专注于强负样本。
基于文本的KGC的一个优点就是支持归纳实体表征学习。在训练过程中看不到的实体仍然可以进行适当的建模,而基于嵌入的方法(例如 TransE)只能在转导设置(transductive setting)下进行推理。如果通过图中的短路径连接,则两个实体更有可能相关。根据经验发现基于文本的模型严重依赖语义匹配,并在某种程度上忽略了这种拓扑偏差。通过提高头实体的 k 跳邻居的分数,提出了一种简单的重新排名策略。
二、方法
2.1 记号定义
本文定义标记不变,KGC的链接预测任务是在给定不完整的G的情况下推断缺失的三元组。在广泛采用的实体排名评估协议下,尾部实体预测(h,r,?)需要对给定h和r的所有实体进行排名,类似与头实体预测(?,r,t)。另添加一个逆三元组,其中
是r的逆关系。基于这种重新表述,只需要处理尾部实体预测问题.
2.2 模型架构
SimKGC 采用双编码器架构。两个编码器使用相同的预训练语言模型进行初始化,但不共享参数。给定一个三元组 (h,r,t),第一个编码器用于计算头实体 h 的关系感知嵌入。我们首先将实体 h 和关系 r 的文本