传统知识图谱:在计算实体间的语义关系时,需要设计一种特殊的图算法来实现,但是复杂度高,可扩展性差,难满足大规模需求。严重的数据稀疏性问题导致实体的语义或推理关系的计算极不准确。
知识嵌入技术:将知识图嵌入到稠密的低维特征空间,有效计算低维度空间中实体间的语义关系,解决复杂性和数据稀疏性问题。关进思想是在连续向量空间中嵌入包含实体和关系的知识图谱组件,以简化操作,同时保留知识图谱的固有结构。
一、什么是知识图谱的补全?
有知识图谱G={E,R,F},E代表所有实体的集合,R代表所有关系的集合,F为所有三元组的集合。
知识图谱补全就是预测知识图谱中缺失的三元组F'={(h, r, t) | (h, r, t)∉F, r∈R}。补全的实体在E中时,属于在封闭区域进行知识图谱补全,限制要补全的三元组实体都在E中;若不限制实体一定在E中,属于开放域知识图谱补全。
二、为什么要做知识图谱的补全?
知识图谱普遍存在不完备问题,我们要做的就是基于图谱中已有的关系,来推理出缺失的关系。
三、知识图谱补全技术
Trans结构(翻译结构)
1多语义环境中Trans结构模型的改进。
1.1TransE模型在链接预测方面表现好,参数少,操作简单,但在处理复杂关系方面准确度较低。
将三元组定义为(头实体head,关系标签label,尾实体tail)简写为(h,r,t)。通过三元组向量化,h + r = t。通过一个实体和关系来预测另一个实体:h + r ≈ t
1.2TransH,同样假设三元组,但关系r会对应一个矩阵W(可以理解为超平面),以矩阵相乘的方式进行投影。但依旧只关注了同一个浴衣环境下的三元组,也就是投影在同一个平面。
1.3TransR,在此基础上将三元组分在此基础上将三元组分在不同的实体空间和关系空间中。并对关系空间中的头尾实体映射建立不同的关系向量,达到相同头尾实体在不同语义环境下会有不同的关系表示。
2.复数域上Trans结构模型的拓展
节点间关系多种多样,一些通过普通Trans难以处理,例如对称关系symmetric和合成关系composition。RotatE模型可以将实体间的关系看做是一种旋转的特性,可以对这类关系进行有效的处理。RotatE借用了欧拉公式的思想,将一个复数作为复平面中的一个向量表示。对于一个三元组(h,r,t)将头实体到尾实体之间的关系看做是向量在负平面上的旋转。即关系r的分量对应一个模型为1的向量。|ri|=1有ti=hi*ri。其中hi,ri,ti∈C,C为知识图谱。
3.多步路径中Trans结构模型的拓展
大多数知识图谱补全模型都是针对实体间直接关系进行预测,忽视了实体间的间接关系。PTransE通过加入对多步路径的预测方式很好的解决了这个问题。PTransE还提出了一种叫做关系路径的可靠性的概念,既不是所有的路径都有可靠的关系存在,有的关系路径本身没有意义,对此提出了关系约束资源分配算法(PCRA)来衡量一段关系路径的可靠性。
文献题目:知识图谱补全研究综述