中心思想
本论文使用一个卷积神经网络来处理关系分类任务,该网络通过排序来执行分类;提出了一个新的成对排序损失函数,使得减少人工类的影响变得容易。针对关系抽取研究,提出CR-CNN模型解决关系抽取的问题。为了判断文本属于那种关系,从句子中提取特征,然后用分类器分到一个关系类别。
模型结构
(1) 具体思路
- 提取特征
The [introduction] in the [book] is a summary of what is in the text.
有N个单词的句子X={w1, u2, …,wN},w代表每个单词。 - 词嵌入、词特征
单词表示由嵌入矩阵 中的列向量编码,为了表示单词w是嵌入矩阵的第几列,还需定义一个 , 是一个大小为|V |的向量,它在索引w处的值为1,在所有其他位置为0。通过下式将单词转换成词嵌入向量。
故输入的句子通过词嵌入转换成实值向量:
-
位置特征
除了提取每个单词的特征向量,还需要看w与两个标注实体[introduction]、[book]的相对位置。比如:
单词summary在[introduction]之后的六个位置,那么这个位置特征就是
单词summary在[book]之后的三个位置,那么这个位置特征就是
将两个位置特征放在一起, 。 -
句子特征
将词特征与位置特征拼接作为句子的特征表示,从而形成卷积层的输入。
.
为了提取到单词的上下文特征,设定一个以单词为中心k大小的窗口,从而能够把窗口内的k的词的特征都串在一起。 -
卷积运算
将上述步骤提取的特征矩阵作为卷积层的输入,使用 个卷积单元对 轮着卷积。使用双曲正切函数作为激活函数,将卷积后的特征矩阵映射到非线性空间。利用最大池化筛选更精确的特征。向量 的第 个元素计算如下:
其中 表示权重矩阵, 表示偏置项。
-
分类器
本文在计算关系得分之前,引进关系类别嵌入去计算各关系的得分。
这个嵌入矩阵,表示不同关系类别标签的分布式向量表示。 则表示关系类别c的嵌入列向量。
故关系类别c的得分计算如下: -
损失函数
采用最小化成对排序损失函数作为本模型的损失函数是本文的一个创新。
(2) 模型图
-
原文模型图
-
自己画的
优缺点
本文的创新包含两点:
- 提出了一种新的分类CNN,不再使用softmax分类器。它使用了类别嵌入。利用类别嵌入矩阵计算文本的关系类别得分
- 采用一种新的排序损失函数;