论文浅尝|《Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification》

导读

这是一篇2016年的ACL论文,题目为《Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification》,介绍了基于注意力机制的双向长短时记忆关系分类网络。

这篇文章的代码开放可用,在https://paperswithcode.com/dataset/semeval-2010-task-8可以下载。

一、选题背景

关系分类是自然语言处理领域中一项重要的语义处理任务。但即使是目前最先进的系统仍然面临一定的局限:

  • 依赖语法分析以及命名实体识别(NER)获得高级特征。
  • 重要信息可能出现在句子中的任何位置。

二、贡献

为了解决上述问题,作者提出了基于注意力机制的双向长短时记忆网络来获取句子中最重要的语义信息,它不依赖于任何词汇资源或者系统特征。在SemEval-2010关系分类任务上的实验结果F1值达到了84.0%,表明本文提出的方法优于现有只使用词向量的大多数方法。

三、基本概念

1. 关系分类

关系分类的任务是发现名词对之间的语义关系,这对于许多NLP应用都非常有用,例如信息提取、问答系统等。
作者举了如下例子,Example:⟨e1⟩Flowers⟨/e1⟩are carried into the⟨e2⟩chapel⟨/e2⟩。其中⟨e1⟩,⟨/e1⟩,⟨e2⟩,⟨/e2⟩指示了句子中名词对的位置,传统的关系分类方法利用词汇资源中的手工特征,通常基于模式匹配,并取得了较好的性能。

2.现有方法的弊端
  • 许多传统的NLP系统被用于提取高级特征,例如语音标签、最短依赖路径和命名实体,这会导致计算成本增加和额外的传播错误。
  • 手动设计特征耗时,而且由于不同训练数据集的覆盖率较低,模型的泛化性能较差。
  • 虽然有一些深度学习的方法可以用于减少手工特征,但这些方法仍然依赖词汇资源。

四、模型构建

本文构建了Att-BLSTM模型,共包含五个部分:
(1)输入层:该模型的输入句子;
(2)嵌入层:将每个单词映射成低维向量;
(3)LSTM层:利用BLSTM从步骤(2)获得高水平的特征;
(4)注意力层:生成一个权重向量,通过乘以权重向量,将每个时间步的单词级特征合并成句子级特征向量;
(5)输出层:最终使用句子级特征向量进行关系分类。
在这里插入图片描述

1. 词嵌入

给定一个由T个单词组成的句子S={x1,x2,…,xT},每个单词xi都被转换成实值向量ei。对于S中的每个单词,我们首先查找嵌入矩阵WWRD∈Rdw | V |,其中V是固定大小的词汇表,dw是单词嵌入的大小。矩阵WWRD是一个要学习的参数,DW是一个由用户选择的超参数。通过矩阵向量积将一个单词xi转换成它的词嵌入xi。
在这里插入图片描述
Vi是一个大小为| V |的向量,其在索引ei处的值为1,在所有其他位置的值为0。然后这些内容作为一个实值向量embs={e1,e2,…,eT}传入下一层。

2. LSTM单元

LSTM单元最早是为克服梯度消失问题而提出的,它引入一种自适应的控制机制使其可以记忆前一个状态并记忆当前数据输入的特性。本文采用的是一种变体,一般来讲包含一下四种组成,公式如图所示。

  • 一个输入门it和相应的权重矩阵Wxi,Whi,Wci,bi
  • 一个遗忘门ft和相应的权重矩阵Wxf、Whf、Wcf、bf
  • 一个输出们ot和相应的权重矩阵Wxo, Who, Wco, bo
  • 以上门的生成:如当前输入xi,上一步输入产生的hi-1,当前peephole ci-1。用于决定是否接收当前输入、是否忘记之前的存储、是否输出之后的生成。

从(5)可以看出,当前单元状态ct通过使用之前的单元状态和单元生成的当前信息计算加权和来生成
在这里插入图片描述

3. 双向网络

相较于LSTM单元,BLSTM模型的好处在于能够利用过去和未来的信息。本文的双向网络包含两个子网络,分别用于左序列上下文和右序列上下文,分别为正向传递和反向传递。第i个词的输出如下图所示。
在这里插入图片描述

4. 注意力机制

本文将注意力机制应用于关系识别任务。H是LSTM层输出的向量[h1, h2, . . . , hT]组成的矩阵,其中T是句子长度。句子的表示由这些输出向量的加权和构成,在这里H∈Rdw×T,dw是词向量的维数,w是经过训练的参数向量,wT是转置。w,α,r的维度分别是dw,T,dw。
在这里插入图片描述
本文从中获得用于分类的最终句子对表示:
在这里插入图片描述

5. 分类

本文使用softmax分类器预测句子类别。分类器获取隐藏状态h∗作为输入:
在这里插入图片描述
损失函数如下图:
在这里插入图片描述

6. 正则化

dropout可以在前向传播过程中,通过随机从网络中发射特征检测器来防止隐藏单元的共适配,因此本文在我们在嵌入层、LSTM层和倒数第二层使用了dropout。

五、实验开展

1. 实验数据

SemEval-2010Task 8数据集:包含9种关系(有两个方向)和一个无向的其他类。有10717个注释示例,其中8000个用于训练,2717个用于测试。采用官方的评估指标基于九种实际关系来评估系统的宏观平均F1分数,并考虑方向性。
鉴于没有官方数据集,随机选择80句进行验证。

2. 词向量

使用Turian等人在2010年提出的50维词向量来初始化嵌入层;还使用了Pennington等人在2014年训练的100维词向量。

六、结果

在这里插入图片描述
本文提出了一种新的关系分类神经网络模型Att-BLSTM。该模型不依赖NLP工具或语义资源,而是使用带有位置指示器的原始文本作为输入。Att-BLSTM的有效性通过评估modelon SemEval-2010关系分类任务来证明,F1值达到84.0%。

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值