知识图谱—知识表示（一）

最新推荐文章于 2024-04-22 18:07:28 发布

kaikaihit

最新推荐文章于 2024-04-22 18:07:28 发布

阅读量3k

点赞数

文章标签：神经网络机器学习人工智能深度学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zkzbhh/article/details/107995327

版权

导读：

知识图谱—知识提取

将结构化、半结构化和非结构化数据中的实体、关系和属性进行提取。之后就要进行知识表示。本文主要介绍知识表示的概念、常见的代表模型：距离模型、单层神经网络模型、能量模型、双线性模型、张量神经网络模型、矩阵分解模型。trans模型下篇文章介绍。摘自刘知远：知识表示学习研究进展（DOI;10.7544/issn1000-1239.2016.20160020)

一.知识表示学习的概念

one-hot representation：将研究对象表示为向量，该向量只有某一维非零，其它维度上的值均为0，独热表示是信息检索和搜索引擎中广泛使用的词袋模型的基础。优点是无需学习过程，简单高效，在信息检索和自然语言处理中得到广泛应用。缺点是会丢失大量有用信息，无法有效表示短文本、容易受到数据稀疏问题的影响。

表示学习的目标是，通过机器学习将研究对象的语义信息表示为稠密低维实值向量。将实体e和关系r表示为两个不同向量，在向量空间中，通过欧式距离或余弦距离等方式，计算任意两个对象之间的语义相似度。

知识表示学习得到的分布式表示，我们可以快速计算实体间的语义相似度，这对于自然语言处理和信息检索的很多任务有重要意义；我们还可以知识图谱补全，构建大规模知识图谱，需要不断补充实体间的关系，利用知识表示学习模型，我们可以预测2个实体的关系；除此之外，还可以用于关系抽取，自动问答，实体链指等任务，展现出巨大的应用潜力。

知识表示学习的优点：显著提升计算效率，知识库的三元组表示实际就是基于独热表示的，在这种表示方式下，需要设计专门的图算法计算实体间的语义和推理关系，计算复杂度高、可扩展性差。而表示学习得到的分布式表示，能够高效地实现语义相似度计算等操作，显著提升计算效率；有效缓解数据稀疏；实现异质信息融合。

二.知识表示学习的主要方法

知识表示学习的代表模型，包括距离模型、单层神经网络模型、能量模型、双线性模型、张量神经网络模型、矩阵分解模型和翻译模型等。

1.距离模型（SE）

每个实体用d维的向量表示，所有实体被投影到同一个d维向量空间中，同时，距离模型还未每个关系r定义2个矩阵，用于三元组中头实体和尾实体的投影操作。最后，距离模型为每个三元组（h,r,t）定义了如下损失函数：

距离模型将头实体向量和尾实体向量通过关系r的2个矩阵投影到r的对应空间中，然后在该空间中计算两投影向量的距离。这个距离反映了2个实体在关系r下的语义相似度，他们距离越小，说明这2个实体存在这种关系。

距离模型能够利用学习得到的知识表示进行链接预测，即通过计算，找到让两实体距离最近的关系矩阵。

距离模型的缺陷：协同性差，无法精确刻画两个实体之间的语义联系

2.单层神经网络模型(SLM）

采用单层神经网络的非线性操作，来减轻距离模型无法协同精确刻画实体与关系的语义联系的问题。SLM为每个三元组（h,r,t）定义了评分函数：

SLM是SE模型的改进版本，但是它的非线性操作仅提供了实体和关系之间比较微弱的联系，与此同时，引进了更高的计算复杂度。

3.能量模型（SME）

语义匹配能量模型，提出更复杂的操作，寻找实体和关系之间的语义联系。在SME中，每个实体和关系都用低维向量表示，在此基础上，SME定义若干投影矩阵，刻画实体与关系的内在联系，SME为每个三元组（h,r,t）定义了2种评分函数，分别是线性形式：

和双线性形式：

此外，也可以用三阶张量代替SME的双线性形式。

4.双线性模型（LFM）

隐变量模型提出利用基于关系的双线性变换，刻画实体和关系之间的二阶关系，LFM为每个三元组（h,r,t）定义了如下双线性评分函数：

5.张量神经网络模型（NTN）

张量神经网络模型的基本思想是，用双线性张量取代传统神经网络中的线性变换层，在不同的维度下将头、尾实体向量联系起来。基本思想如下图：

张量神经网络模型

NTN为每个三元组（h,r,t）定义了如下评分函数，评价2个实体之间存在的某个特定关系r的可能性：

NTN中的实体向量是该实体中所有单词向量的平均值，这样做的好处是，实体中的单词数量远小于实体数量，可以充分重复利用单词向量构建实体表示，降低实体表示学习的稀疏性问题，增强不同实体的语义联系。

NTN的缺陷：虽然能够更精确地刻画实体和关系的复杂语义联系，但复杂度非常高，需要大量三元组样例才能得到充分学习，NTN在大规模稀疏知识图谱上的效果较差。

6.矩阵分解模型（RESACL）

知识库三元组构成了一张大的张量X，如果三元组（h,r,t）存在，则X=1，否则为0.张量分解旨在将每个三元组（h,r,t）对应的张量值X分解为实体和关系表示，使得X尽量地接近于LML

RESACL的基本思想与前述LFM类似，不同之处在于，RESACL会优化张量中的所有位置，包括0的位置；而LFM只会优化知识库中存在的三元组。

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
知识图谱—知识表示（一）

导读：知识图谱—知识提取将结构化、半结构化和非结构化数据中的实体、关系和属性进行提取。之后就要进行知识表示。本文主要介绍知识表示的概念、常见的代表模型：距离模型...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。