nlp基础—12.LSTM-CRF模型介绍

最新推荐文章于 2024-10-06 16:31:41 发布

哎呦-_-不错

最新推荐文章于 2024-10-06 16:31:41 发布

阅读量5.3k

点赞数 13

分类专栏： # nlp基础知识文章标签： lstm crf 序列标注

本BLOG上原创文章未经本人许可，不得用于商业用途，转载请注明出处。

本文链接：https://blog.csdn.net/weixin_46649052/article/details/118569239

版权

本文介绍了LSTM和CRF模型在序列标注任务中的应用，包括LSTM的基本原理，双向LSTM（BI-LSTM）如何捕获上下文信息，以及CRF如何改进标注性能。通过LSTM+CRF或BiLSTM+CRF模型，可以有效地结合序列的上下文特征和标签信息，尤其在词性标注和命名实体识别中表现优秀。

摘要由CSDN通过智能技术生成

文章目录

引言

本文讨论的是序列标注问题，所使用的模型是将两种现有的模型(LSTM+CRF)进行拼接，一种模型是双向LSTM模型，一种是CRF模型。下面介绍如何结合LSTM和CRF用于sequence tagging，并且对这些结合的效果进行测量。

一、模型介绍

本篇文章涉及以下几种模型：LSTM,BI-LSTM,CRF,LSTM+CRF,BI-LSTM+CRF。BiLSTM-CRF模型通过双向LSTM有效地捕捉到了输入的过去和未来特征。它也可以通过CRF层使用到句子级的标注信息。BiLSTM-CRF在POS(词性标记)、NER(命名实体识别)数据集上都取得了很好的效果。另外，与之前的工作相比，它更健壮，依赖于更少的词向量。

1. LSTM模型

在实际建模中，RNN 经常出现梯度爆炸或梯度消失等问题，因此我们一般使用长短期记忆单元或门控循环单元代替基本的 RNN 循环体。它们引入了门控机制以遗忘或保留特定的信息而加强模型对长期依赖关系的捕捉，它们同时也大大缓解了梯度爆炸或梯度消失的问题。循环网络的每一个隐藏层都有多个循环单元，隐藏层 $h_{t-1}$ 的向量储存了所有该层神经元在 $t - 1$ 步的激活值。一般标准的循环网络会将该向量通过一个仿射变换并添加到下一层的输入中，即 $W* h_{t-1}+U* X_t$