文章题目:KG-BERT: BERT for Knowledge Graph Completion(KG-BERT:BERT用于知识图补全)
BERT模型是一种基于上下文的嵌入模型,与其他流行的嵌入模型(word2vec等)不同,它能够更好地理解句子的上下文关系。 BERT模型的基本思想是通过训练一个深层的双向变换器(Transformer)模型,提供了一种在大规模无标签数据上进行预训练的方法,然后再在特定任务上进行微调。这种预训练-微调的框架使得BERT模型在各种自然语言处理任务上表现出色。
问题:知识图谱补全(KGC)的常用方法是利用知识图谱嵌入(KGE:将三元组中的实体和关系表示为实值向量,并评估三元组,以及这些向量的合理性),而已有的知识图谱嵌入往往仅仅利用了知识图谱的图结构,难以很好地表示稀疏的实体。虽然有些知识图谱嵌入方法利用了文本信息,比如实体描述、关系描述和单词共现,但是它们忽略了上下文信息,也没有利用外部的大规模语料信息。
方法:提出KG-BERT,首先将实体、关系和三元组视为文本序列,并将知识图补全转化为序列分类问题。然后在这些序列上微调BERT模型,以预测三元组或关系的合理性/似然性。该方法可以在多个KG完成任务中获得很强的性能。
本文贡献:
1.提出了一种新的知识图补全语言建模方法。据文章描述,这是他们第一次用预先训练的上下文语言模型对三元组、合理性进行建模。
2.在几个基准数据集上的结果表明,论文中的方法可以在三重分类、关系预测和链接预测任务中获得最先进的结果。
知识图谱嵌入:
基于三元组(h,r,t)的不同评分函数,这些方法可以分为平移距离模型和语义匹配模型。
平移距离模型使用基于距离的评分函数。他们通过两个实体向量h和t之间的距离来评估三元组(h,r,t)的合理性,通常是在关系向量r进行翻译之后。代表性的模型是TransE及其扩展,包括TransH。对于TransE,得分函数被分解为负平移距离f(h,r,t)=-||h+r-t||。
语义匹配模型采用基于相似性的评分函数。代表性模型有REsCAL、DistMult及其扩展。对于DistMult,得分函数被分解为双线性函数f(h,r,t)=<h,r,t>。
上述方法不仅使用在三元组中观察到的结构信息来完成知识图,还可以引入不同类型的外部信息,如实体类型、逻辑规则和文本描述,以提高性能。
对于文本描述,通过对实体名称中包含的单词嵌入进行平均来首次表示实体,其中单词嵌入是从外部语料库中学习的。后又提出通过对齐维基百科锚点和实体名称,将实体和单词联合嵌入同一向量空间。又或是使用卷积神经网络(CNN)对实体描述中的单词序列进行编码。之后提出了语义空间投影(ssp),通过表征事实三元组和文本描述之间的强相关性来联合学习主题和KG嵌入。
问题:尽管这些模型取得了成功,但它们学习到了相同的实体和关系的文本表示,而实体/关系描述中的单词在不同的三元组中可能具有不同的含义或重要性权重。
方法:2016年提出了一种文本增强的KG嵌入模型TEKE,该模型可以为不同三元组中的关系分配不同的嵌入,TEKE利用实体对共同出现的文本语料库中实体和单词进行注释。2017年使用具有注意力机制的LsTM编码器来构造给定不同关系的共文本表示。2018年通过利用三种特定关系提及以及关系提及和实体描述之间的相互注意机制,提出了一种精确的文本增强KG嵌入方法。
尽管这些方法可以处理不同三元组中实体和关系的语义多样性,但由于只使用实体描述、关系提及和与实体的单词共现,它们无法充分利用大规模自由文本数据中的句法和语义信息。
与这些方法相比,本文的方法可以通过预先训练的语言模式学习具有丰富语言信息的上下文感知文本嵌入。