知识图谱—知识表示(一)

导读:

             知识图谱—知识提取

将结构化、半结构化和非结构化数据中的实体、关系和属性进行提取。之后就要进行知识表示。本文主要介绍知识表示的概念、常见的代表模型:距离模型、单层神经网络模型、能量模型、双线性模型、张量神经网络模型、矩阵分解模型。trans模型下篇文章介绍。摘自刘知远:知识表示学习研究进展(DOI;10.7544/issn1000-1239.2016.20160020)


一.知识表示学习的概念

one-hot representation:将研究对象表示为向量,该向量只有某一维非零,其它维度上的值均为0,独热表示是信息检索和搜索引擎中广泛使用的词袋模型的基础。优点是无需学习过程,简单高效,在信息检索和自然语言处理中得到广泛应用。缺点是会丢失大量有用信息,无法有效表示短文本、容易受到数据稀疏问题的影响。

表示学习的目标是,通过机器学习将研究对象的语义信息表示为稠密低维实值向量。将实体e和关系r表示为两个不同向量,在向量空间中,通过欧式距离或余弦距离等方式,计算任意两个对象之间的语义相似度。

知识表示学习得到的分布式表示,我们可以快速计算实体间的语义相似度,这对于自然语言处理和信息检索的很多任务有重要意义;我们还可以知识图谱补全,构建大规模知识图谱,需要不断补充实体间的关系,利用知识表示学习模型,我们可以预测2个实体的关系;除此之外,还可以用于关系抽取,自动问答,实体链指等任务,展现出巨大的应用潜力。

知识表示学习的优点:显著提升计算效率,知识库的三元组表示实际就是基于独热表示的,在这种表示方式下,需要设计专门的图算法计算实体间的语义和推理关系,计算复杂度高、可扩展性差。而表示学习得到的分布式表示,能够高效地实现语义相似度计算等操作,显著提升计算效率;有效缓解数据稀疏;实现异质信息融合。

二.知识表示学习的主要方法

知识表示学习的代表模型,包括距离模型、单层神经网络模型、能量模型、双线性模型、张量神经网络模型、矩阵分解模型和翻译模型等。

1.距离模型(SE)

每个实体用d维的向量表示,所有实体被投影到同一个d维向量空间中,同时,距离模型还未每个关系r定义2个矩阵,用于三元组中头实体和尾实体的投影操作。最后,距离模型为每个三元组(h,r,t)定义了如下损失函数:

距离模型将头实体向量和尾实体向量通过关系r的2个矩阵投影到r的对应空间中,然后在该空间中计算两投影向量的距离。这个距离反映了2个实体在关系r下的语义相似度,他们距离越小,说明这2个实体存在这种关系。

距离模型能够利用学习得到的知识表示进行链接预测,即通过计算,找到让两实体距离最近的关系矩阵。

距离模型的缺陷:协同性差,无法精确刻画两个实体之间的语义联系

2.单层神经网络模型(SLM)

采用单层神经网络的非线性操作,来减轻距离模型无法协同精确刻画实体与关系的语义联系的问题。SLM为每个三元组(h,r,t)定义了评分函数:

SLM是SE模型的改进版本,但是它的非线性操作仅提供了实体和关系之间比较微弱的联系,与此同时,引进了更高的计算复杂度。

3.能量模型(SME)

语义匹配能量模型,提出更复杂的操作,寻找实体和关系之间的语义联系。在SME中,每个实体和关系都用低维向量表示,在此基础上,SME定义若干投影矩阵,刻画实体与关系的内在联系,SME为每个三元组(h,r,t)定义了2种评分函数,分别是线性形式:

和双线性形式:

此外,也可以用三阶张量代替SME的双线性形式。

4.双线性模型(LFM)

隐变量模型提出利用基于关系的双线性变换,刻画实体和关系之间的二阶关系,LFM为每个三元组(h,r,t)定义了如下双线性评分函数:

5.张量神经网络模型(NTN)

张量神经网络模型的基本思想是,用双线性张量取代传统神经网络中的线性变换层,在不同的维度下将头、尾实体向量联系起来。基本思想如下图:

张量神经网络模型

NTN为每个三元组(h,r,t)定义了如下评分函数,评价2个实体之间存在的某个特定关系r的可能性:

NTN中的实体向量是该实体中所有单词向量的平均值,这样做的好处是,实体中的单词数量远小于实体数量,可以充分重复利用单词向量构建实体表示,降低实体表示学习的稀疏性问题,增强不同实体的语义联系。

NTN的缺陷:虽然能够更精确地刻画实体和关系的复杂语义联系,但复杂度非常高,需要大量三元组样例才能得到充分学习,NTN在大规模稀疏知识图谱上的效果较差。

6.矩阵分解模型(RESACL)

知识库三元组构成了一张大的张量X,如果三元组(h,r,t)存在,则X=1,否则为0.张量分解旨在将每个三元组(h,r,t)对应的张量值X分解为实体和关系表示,使得X尽量地接近于LML

RESACL的基本思想与前述LFM类似,不同之处在于,RESACL会优化张量中的所有位置,包括0的位置;而LFM只会优化知识库中存在的三元组。

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值