【论文阅读】Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification

CS_木成河

已于 2024-09-13 18:01:33 修改

阅读量979

点赞数

分类专栏：论文阅读笔记文章标签：论文阅读深度学习机器学习

于 2022-09-20 20:58:54 首次发布

本文链接：https://blog.csdn.net/weixin_47936614/article/details/126948269

版权

论文阅读笔记专栏收录该内容

6 篇文章 1 订阅

订阅专栏

基于注意力的双向长短期记忆网络的关系分类

原论文链接地址：https://aclanthology.org/P16-2034
论文作者：Peng Zhou, Wei Shi, Jun Tian, Zhenyu Qi∗, Bingchen Li, Hongwei Hao, Bo Xu
Institute of Automation, Chinese Academy of Sciences

1. 关系分类

关系分类是自然语言处理（NLP）领域中一项重要的语义处理任务。关系分类是寻找成对名词之间的语义关系的任务，这对于许多NLP应用都很有用，例如信息提取、问答。例如，下面的句子包含了名词Flowers和chapel之间实体-目的地关系的示例。

Flowers are carried into the chapel.

该文提出了一种用于关系分类的新型神经网络Att-BLSTM。模型利用双向长短期记忆网络（Bi-LSTM）的神经注意机制来捕获句子中最重要的语义信息。这个模型没有利用任何来自词汇资源或NLP系统的特性，它可以自动关注对分类有决定性影响的单词，捕获句子中最重要的语义信息，而无需使用额外的知识和NLP系统。

2. Att-BLSTM模型

模型包含五个组成部分：
（1）输入层：该模型的输入句子；
（2）嵌入层：将每个单词映射到一个低维向量；
（3） LSTM层：利用BLSTM从步骤（2）中获取高级特征；
（4）注意层：生成一个权重向量，通过乘以权重向量，将每个时间步的单词级特征合并为句子级特征向量；
（5）输出层：句子级特征向量最终用于关系分类。

(1)单词嵌入

给定一个由T个单词组成的句子S={x₁，x₂，…，x_T}，每个单词x_i都转换为实值向量e_i。对于S中的每个单词，首先查找嵌入矩阵 $W^{wrd} ∈ R^{d^{w} |V|}$ ，其中V是固定大小的词汇表， $d^{w}$ 是单词嵌入的大小。矩阵 $W^{wrd}$ 是一个需要学习的参数， $d^{w}$ 是一个由用户选择的超参数。我们使用矩阵向量积将单词x_i转换为单词嵌入e_i：
$e_i=W^{wrd}v^{i}$
其中 $v^{i}$ 是大小为|V|的向量，其在索引e_i处的值为1，在所有其他位置的值为0。然后将句子作为实值向量 $emb_s$ ={ $e_1，e_2，…，e_T$ }输入下一层。

(2)双向网络

为了克服梯度消失问题，Hochreiter和Schmidhuber首次提出了LSTM单元。其主要思想是引入一种自适应门控机制，该机制决定LSTM单元保持先前状态的程度，并存储当前数据输入的提取特征。然后提出了许多LSTM变体。该文采用了Graves等人提出的一种变体，该变体将 Constant Error Carousel（CEC）的加权窥视孔连接添加到同一内存块的门。通过直接使用当前单元状态来生成门度，即使输出门关闭，窥视孔连接也允许所有门检查单元。

通常，基于LSTM的循环神经网络由四个部分组成：一个输入门 $i$ _t与相应的权重矩阵 $W$ _xi、 $W$ _hi、 $W$ _ci、 $b$ _i；一个遗忘门 $f$ _t，具有相应的权重矩阵 $W$ _xf、 $W$ _hf、 $W$ _cf、 $b$ _f；一个输出门 $o$ _t具有相应的权重矩阵 $W$ _xo、 $W$ _ho、 $W$ _co、 $b$ _o，所有这些门都设置为生成某种程度。使用当前的输入 $x$ _i，上一步生成的状态 $h$ _i−1，以及神经元 $c$ _i-1的当前状态，用于决定是否接受输入，忘记以前存储的内存，并输出以后生成的状态。正如以下等式所示：
$i_t = σ(W_{xi}x_t + W_{hi}h_{t−1} + W_{ci}c_{t−1} + b_i)$
$f_t = σ(W_{xf}x_t~+W_{hf}h_{t−1}+W_{cf}c_{t−1}+ b_f)$
$g_t = tanh (W_{xc}x_t+W_{hc}h_{t−1}+W_{cc}c_{t−1}+b_c)$
$c_t = i_tg_t + f_tc_{t−1}$
$o_t = σ(W_{xo}x_t + W_{ho}h_{t−1} + W_{co}c_t + b_o)$
$h_t = o_ttanh(c_t)$

因此，当前神经元状态c_t将通过使用先前神经元状态和神经元生成的当前信息计算加权和来生成。对于许多序列建模任务，能够访问未来和过去的上下文是有益的。然而，标准LSTM网络按时间顺序处理序列，它们忽略了未来的上下文。双向LSTM网络通过引入第二层来扩展单向LSTM网络，其中隐藏到隐藏的连接以相反的时间顺序流动。因此，该模型能够利用过去和未来的信息。如图1所示，该论文使用的BLSTM包含左序列上下文和右序列上下文的两个子网络，分别是向前和向后传递。第 $i$ 个单词的输出如下等式所示：
$h_i = [\overrightarrow{h_i}⊕\overleftarrow{h_i}]$

这里，使用逐元素求和来组合正向和反向传递输出。

图1：具有注意力的双向LSTM模型

图1 具有注意力的双向LSTM模型

(3)注意力机制

最近，注意力神经网络在从问答、机器翻译、语音识别到图像字幕的广泛任务中取得了成功。在本节中，该文提出了关系分类任务的注意机制。假设H是由LSTM层生成的输出向量[h₁，h₂，…，h_T]组成的矩阵，其中T是句子长度。句子的表示 $r$ 由这些输出向量的加权和构成：

$M = t anh (H)$
$α = softmax(w^{T}M)$
$r = Hα^{T}$
其中 $H∈R^{d^{w}×T}$ ， $d^{w}$ 是单词向量的维数， $w$ 是经过训练的参数向量， $w^{T}$ 是转置。 $w ， α ， r$ 的维数分别为 $d^{w}，T，d^{w}$ 。
从以下方面获得用于分类的最终句子对表示：
$h^{∗} = tanh(r)$

(4)分类

在此设置中，使用softmax分类器从句子S的离散类Y集合中预测标签 $\hat{y}$ 。分类器采用隐藏状态 $h^{∗}$ 作为输入：
$\hat{p}(y|S) = softmax(W^{(S)}h^{∗} + b^{(S)})$
$\hat{y} = \underset{y}{argmax} \hat{p} (y|S)$
损失函数是真实类别标签 $\hat{y}$ 的负对数似然：
$\frac{1}{m}\sum_{i=1}^{m} t_i log(y_i) + λ∥θ∥_{F}^{2}$
其中， $t∈ ℜ^{m}$ 是one-hot表示的基本事实， $y∈ ℜ^{m}$ 是softmax对每个类的估计概率（m是目标类的数量），λ是L2正则化超参数。该文将dropout与L2正则化相结合，以减轻过拟合现象。

(5)规则化

dropout通过在正向传播期间从网络中随机删除特征检测器，防止了隐藏单元的共同适应。在嵌入层、LSTM层和倒数第二层使用了dropout。梯度下降后无论何时∥w∥ > s，都通过∥w∥ = s将w重标来约束权重向量的L2范数。

3. 实验结果

SVM：这是SemEval-2010中性能最好的系统。Rink和Harabagiu（2010）利用了各种手工特征，并使用SVM作为分类器，取地82.2%的F₁分数。
CNN：Zeng等人（2014年）将句子作为序列数据处理，并利用卷积神经网络学习句子级特征；他们还使用一个特殊的位置向量来表示每个单词。然后将句子级和词汇特征连接到单个向量中，并送入softmax分类器进行预测。该模型F₁得分为82.7%。
RNN:Zhang和Wang（2015）采用了具有两个不同维度词向量的双向RNN网络进行关系分类。使用Mikolov等人（2013年）预先训练的300维单词向量，他们的F₁分数达到82.8%，使用Turian等人（2010年）预先培训的50维单词向量的F₁分数为80.0%。本文的模型使用相同的50维单词向量，F₁得分为82.5%，比他们的高2.5%。
SDP-LSTM:Yan et al.（2015）利用四个不同的通道沿SDP拾取异质性，他们的F₁得分为83.7%。与他们的模型相比，本文将原始文本视为序列的模型更简单。
BLSTM:Zhang等人（2015年）利用NLP工具和词汇资源以及双向LSTM网络的许多特征来学习句子级特征，他们在SemEval-2010 Task 8数据集上取得了最先进的性能。本文使用相同的词向量的模型得到了非常相似的结果（84.0%），而且本文的模型更简单。
本文提出的Att-BLSTM模型的F₁得分为84.0%。它优于大多数现有的竞争方法，不需要使用词汇资源（如WordNet）或NLP系统（如依赖关系分析器和NER）来获取高级特性。