论文笔记|Bidirectional LSTM-CRF Attention-based Model for Chinese Word Segmentation

0 Abstract

中文分词( Chinese word segmentation,CWS )是中文自然语言处理( Natural language processing,NLP )的基础。分词的质量将直接影响NLP任务的其余部分。近年来,随着人工智能技术的发展,长短期记忆( Long Short-Term Memory,LSTM )神经网络作为一种易于时序建模的神经网络,在各类NLP任务中得到了广泛的应用,并取得了较好的效果。注意力机制是解决LSTM上内存压缩问题的一种巧妙方法。进一步地,受双向LSTM模型强大的序列建模能力和CRF模型强大的解码能力的启发,本文提出了双向LSTM - CRF Attention - based模型。在PKU和MSRA基准数据集上的实验表明,我们的模型性能优于其他神经网络建模的基线方法。

1. Introduction

中文分词( Chinese word segmentation,CWS )是中文自然语言处理的一项基本任务。与英语或其他西方语言不同的是,汉语并不存在可以拆分词语的空白。因此,分词对于中文语言处理来说是一个初步且重要的预处理过程。近年来,中文分词得到了很大的发展。最流行的方法是将该任务视为序列标注问题[ 26 ] [ 21 ]。序列标注的目标是为序列中的所有单词设置正确的标签,可以用监督学习算法来处理,如隐马尔可夫模型( HMM ) [ 20 ],最大熵( ME ) [ 1 ]和条件随机场( CRF ) [ 15 ]。然而,这些模型受到预先设计特征的限制。此外,特征的数量可能很大,而且大多数特征都是无用的。这样得到的结果模型过于庞大,不利于实际使用,并且容易在训练语料上出现过拟合现象。近年来,神经网络模型被广泛应用于各种NLP任务中。正因如此,我们不再需要手工挑选合适的特征。科洛贝尔等人[ 7 ]提出了一种用于序列标注任务的通用神经网络架构,Zheng等人[ 28 ]将该架构应用于中文分词和词性标注。在这些工作的基础上,不同类型的神经网络被应用到中文分词任务中,并取得了不错的效果。

其中,循环神经网络( Recurrent Neural Network,RNN )尤其是长短期记忆( Long Short-Term Memory,LSTM ) [ 12 ]神经网络及其改进模型取得了突出的改进。Chen等人[ 4 ]首次将LSTM神经网络用于中文分词任务。Chen等人[ 3 ]提出了一种门控递归神经网络( GRNN ),它是一种捕获长距离依赖关系的树形结构。Huang等人[ 13 ]将双向LSTM网络和CRF网络相结合,形成了Bi - LSTM - CRF网络。Peng和Dredze [ 22 ]将该架构应用于中文分词和命名实体识别( NER )。

然而,经典的LSTM网络模型仍然存在一个问题。该问题涉及到内存压缩问题。当输入序列被压缩并混合成单个稠密向量时,需要足够大的内存容量来存储过去的信息。因此,网络对长序列的泛化能力较差,而对较短的序列则浪费内存。通过对带有注意力机制的LSTM单元进行改进,提出了长短期记忆网络( Long Short-Term Memory-Network,LSTM ) [ 6 ]来解决该问题。

本文提出了一种双向LSTM - CRF注意力模型,并将其应用到中文分词任务中。受Bi - LSTM - CRF模型和LSTM单元的成功启发,在Bi - LSTM - CRF模型中,我们将LSTM单元替换为传统的LSTM单元。我们还使用逐层训练的方法来避免梯度扩散的问题,并使用dropout策略来避免过拟合问题。

本文的贡献可归纳如下:

●提出了一种基于双向LSTM - CRF注意力机制的模型,使用注意力机制来解决内存压缩问题。

●该模型可以很容易地推广并应用到其他序列标注任务中,如词性标注( POS )、组块分析和命名实体识别( NER )。

●在常用的中文分词评测数据集PKU和MSRA上通过中文分词来评估模型的性能。实验结果表明,我们的模型性能优于其他神经网络建模的基线方法。

2. Bidirectional LSTM-CRF Neural Networks

2.1. LSTM Networks with Attention Mechanism

循环神经网络( Recurrent Neural Network,RNN )的扩展。它被设计成使用一个存储单元来捕获长距离的依赖关系。LSTMs可以在组合过程中产生状态表示列表,然而,下一个状态总是从当前状态计算而来。虽然递归状态更新是以马尔可夫方式进行的,但假设LSTM保持无界记忆,这种假设在实际中可能会失效,例如当序列较长或内存大小不够大时。

为解决这一局限性,Cheng [ 6 ]修改了标准的LSTM结构,将记忆单元替换为记忆网络[ 25 ]。由此产生的长短期记忆网络( Long Short-Term Memory Network,LSTM )将每个输入令牌的上下文表示存储在一个唯一的记忆槽中,并且记忆的大小随着时间的推移而增长,直到达到记忆跨度的上界。该设计使LSTM能够通过神经注意力层推理令牌之间的关系,然后执行非马尔科夫状态更新。

LSTM的体系结构如图1所示,其形式化定义如下。

该模型维护了两组向量,一组存储在用于与环境交互的隐藏状态磁带中,另一组存储磁带用于表示实际存储在内存中的内容。因此,每个令牌都与一个隐藏向量和一个记忆向量相关联。令xt表示当前输入;Ct - 1 = ( c1 , ... , ct - 1)表示当前的存储磁带,Ht - 1 = ( h1 , ... , ht-1)表示之前的隐藏磁带。在时间步t,模型通过带有注意力层的h1,..,ht - 1计算xt与x1,..,xt - 1之间的关系:

这就产生了之前令牌的隐藏状态向量的概率分布。然后,我们可以为之前的隐藏磁带和存储磁带分别计算一个自适应的摘要向量c ' t和' ht:

其中v,Wh,Wx和W ' h是网络的新权重项. LSTM背后的一个关键思想是利用注意力来诱导令牌之间的关系。这些关系是软的和可微的,并且是更大的表示学习网络的组成部分。

2.2. Bidirectional LSTM-CRF Networks

使用条件随机场( CRF ) [ 15 ]作为句子级别优化的输出接口的双向LSTM神经网络( Bi-LSTM-RNN)在各种序列标注任务上达到了最先进的精度[ 13 ] [ 17 ] [ 16 ]。传统的LSTM网络的一个缺点是它们只能利用先前的上下文。在分割任务中,我们总是需要上下文中的前向和后向信息。双向LSTM网络[ 24 ]通过处理两个方向的数据来做到这一点。

LSTM计算前向隐藏序列h、后向隐藏序列h和通过将后向层从t = T迭代到1,输出序列y

我们通过时间反向传播来训练双向LSTM网络模型[ 2 ]。随着时间的推移在展开网络上的前向和后向传递与规则网络前向和后向传递类似,只是需要对所有时间步的隐藏状态进行展开。我们还需要在数据点的开始和结束处进行特殊处理。在我们的实现中,我们对整个句子进行前向和后向操作,并且我们只需要在每个句子的开始处将隐藏状态重置为0。我们有批处理的实现,可以同时处理多个句子。我们发现它比单层LSTM有了显著的提升。

对于序列标注(或一般的结构化预测)任务,已经存在邻域内标签之间的相关性,并联合解码给定输入句子的最佳标签链[ 7 ]。例如,在中文语义系统{ B,M,E,S }中,标签B后面跟着标签M或E,而不是标签S。并且标签M紧随其后的是标签M或E而不是标签S或B。

因此,与独立建模标注决策不同,我们添加了线性链条件随机场[ 15 ]层作为解码器。

在形式上,我们用x = ( x1 , ... , xn)表示一个输入序列,用y = ( y1 , ... , yn)表示分割输出标签。所以,我们把它的分数定义为

其中A是一个转移得分矩阵,满足Ai,j对连续的时间步从第i个状态到第i个状态的转移进行建模.

在训练过程中,我们使用最大似然估计来最大化正确标签序列的对数概率:

2.3. Bidirectional LSTM-CRF Attention-based Neural Networks

我们将经典的LSTM单元替换为双向LSTM神经网络中的LSTM单元,形成新的网络结构。除此之外,我们将这种新的网络与CRF网络相结合,形成了双向LSTM - CRF Attention - based神经网络(模型结构示意图见图2),可以利用多种模型的优势。

3. Model training Procedure

3 .1 模型

面向中文分词任务的LSTM神经网络架构特点是具有三个专门的层:( 1 )字符嵌入层;( 2 )双向LSTM神经网络层和( 3 ) CRF标签解码器层。如图3所示。

字符嵌入层:

首先,在使用神经网络模型处理数据时,需要将输入的句子转化为向量数据。先前的研究表明,对于建模序列,如句子或基因,分布式表示优于独热表示[ 18 ] [ 10 ]。Word2Vec [ 19 ]是学习序列分布式表示的经典方法。在本文中,我们使用Word2Vec获取字符嵌入作为该模型的顶层。

双向LSTM神经网络层:

将所有上下文字符的嵌入串接成一个向量,作为前向LSTM神经网络和后向LSTM神经网络的输入。然后,它将经过一系列的隐藏层,并得到一个分数矩阵。

CRF标签解码器层:

在这一层中,我们定义了一个过渡分数连接到神经网络的分数矩阵中作为评价分数。利用链式条件随机场对输入序列和输出标签进行建模。得到最大评价分数的标签即为系统预测的标签。

3.2. Training Algorithm

对于本文提出的模型,我们使用mini - batched AdaGrad [ 8 ]进行训练。在每个历元中,我们将整个训练数据进行批次划分,一次处理一个批次。每个批包含一个句子列表,句子列表由小批量参数决定。在我们的实验中,我们使用50的小批量。对于每个mini - batch,我们首先运行双向LSTM - CRF模型的前向传递,其中包括LSTM的前向状态和后向状态的前向传递。结果,我们得到了所有标签在所有位置的输出得分。然后运行CRF层的前向和后向传递来计算网络输出和状态转移边的梯度。之后,我们可以将误差从输出反向传播到输入,这包括LSTM的前向和后向状态的反向传递。最后更新网络参数,包括状态转移矩阵A和原始的双向LSTM参数。

3.3. Overfitting

Dropout是神经网络中常用的避免过拟合的方法之一[ 8 ] [ 11 ]。当一个单元退出时,我们暂时将其从网络中移除,以及它的所有输入和输出连接。在最简单的情况下,每个单元以独立于其他单元的固定概率p被省略,即丢弃率,其中p也是在开发集上选择的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值