引言
本文讨论的是序列标注问题,所使用的模型是将两种现有的模型(LSTM+CRF)进行拼接,一种模型是双向LSTM模型,一种是CRF模型。下面介绍如何结合LSTM和CRF用于sequence tagging,并且对这些结合的效果进行测量。
一、模型介绍
本篇文章涉及以下几种模型:LSTM,BI-LSTM,CRF,LSTM+CRF,BI-LSTM+CRF。BiLSTM-CRF模型通过双向LSTM有效地捕捉到了输入的过去和未来特征。它也可以通过CRF层使用到句子级的标注信息。BiLSTM-CRF在POS(词性标记)、NER(命名实体识别)数据集上都取得了很好的效果。另外,与之前的工作相比,它更健壮,依赖于更少的词向量。
1. LSTM模型
在实际建模中,RNN 经常出现梯度爆炸或梯度消失等问题,因此我们一般使用长短期记忆单元或门控循环单元代替基本的 RNN 循环体。它们引入了门控机制以遗忘或保留特定的信息而加强模型对长期依赖关系的捕捉,它们同时也大大缓解了梯度爆炸或梯度消失的问题。循环网络的每一个隐藏层都有多个循环单元,隐藏层 h t − 1 h_{t-1} ht−1 的向量储存了所有该层神经元在 t − 1 t-1 t−1 步的激活值。一般标准的循环网络会将该向量通过一个仿射变换并添加到下一层的输入中,即 W ∗ h t − 1 + U ∗ X t W* h_{t-1}+U* X_t W∗ht−1+