知识图谱-关系抽取

最新推荐文章于 2024-01-09 01:15:07 发布

加油上学人

最新推荐文章于 2024-01-09 01:15:07 发布

阅读量1.4k

点赞数

分类专栏：知识图谱文章标签：知识图谱自然语言处理机器学习关系抽取 CNN编码

本文链接：https://blog.csdn.net/weixin_45885232/article/details/124644925

版权

知识图谱专栏收录该内容

10 篇文章 0 订阅

订阅专栏

关系抽取有基于字符模式的抽取、基于语法模式的抽取、基于语义模式的抽取、自动化模式抽取和基于学习的抽取。基于学习的抽取是目前的主流方法，因此主要介绍基于学习的抽取。
基于学习的抽取分为基于监督学习、基于弱监督学习和基于远程学习的抽取。从模型的角度来看，无论是采用哪种方法，都可以采用序列标注方式或者序列分类模型进行，如果已经给定了实体位置，使用分类模型更方便。

1. 基于监督学习的关系抽取

监督学习是利用标注数据进行学习的一种方法，在监督学习的关系抽取中，核心问题是如何从标注样本中抽取有用的特征，常用的特征有：
1.1 词汇特征：
词汇特征指实体对之间或周五的特定词汇，这些背景词在语义上能够帮助判断实体对的关系类别。如<柏拉图，亚里士多德>作为一个实体对，关联的句子“柏拉图和老师苏格拉底、学生亚里士多德并称希腊三贤”中的词袋信息为<和，老师，苏格拉底、学生>,之间的词性标注为{CONJ,NP,NP,NP},每个词性出现的位置顺序信息，词性的词袋信息等。
1.2 句法特征
句法特征通过依存分析器，如MINIPAR和Standford Parser等获取句子的句法分析结果，句法分析结果中包括词汇集合以及词汇之间的有向句法依赖关系。比如“汪峰发行新歌春鸟”，就是一个最短的依赖路径，实体是“汪峰”和“春鸟”，关系是发行。
1.3 语义特征
语义特征指关系两边的类型作为候选实体对的匹配约束。（这个概念持有疑问）

2. 基于远程监督学习的关系抽取

基本假设是给定一个三元组<s,r,o>，则任何包含实体对<s,o>的句子在某种程度上秒速了该实体对之间的关系。其基本流程如下：
（1）从知识库获取尽可能多的实体
（2）对获取到的实体，从大规模数据中获取尽可能的多的句子集合，并为每个句子标注响应的关系；
（3）包含实体对的句子集合和关系类型标签构成了关系抽取的数据集，即实体对的训练数据为响应额的句子，标签为知识库中的关系类型。

3.基于深度学习的关系抽取

3.1基于循环神经网络的关系抽取
典型的模型结构：输入层（Input layer）双向循环层(Recurrent Layer)池化层(Pooling Layer）。关于双向循环层，可以见RNN的网络结构和参数更新方式和长短时记忆网络
3.2 基于卷积神经网络的关系抽取
基本思想：使用CNN对输入语句进行编码，基于编码的结果并使用全连接层结合激活函数对实体对的关系进行分类。典型框架：句子->Embedding->卷积层->卷积疏忽->最大池化->非线性层->句子表示。

Embedding：embedding中主要是处理位置关系，位置关系有助于帮助网络跟踪输入句子中每个单词与实体对的距离。其基本思想是：离实体月经的单词通常包含越多的关于关系分类的有用信息。

给定句子“Bill is the founder of Microsoft”,"founder"和"bill"的相对距离是3，与尾部实体“Microsoft”的距离是-2，每个相对位置编为 $d_p$ 的向量，将词向量与位置向量进行拼接，得到每个词的向量表示 $w_i \in R^d$ ，其中 $d=d_w+2d_p$ ，进一步得到句子的整体表示。