nlp基础—12.LSTM-CRF模型介绍

本文介绍了LSTM和CRF模型在序列标注任务中的应用,包括LSTM的基本原理,双向LSTM(BI-LSTM)如何捕获上下文信息,以及CRF如何改进标注性能。通过LSTM+CRF或BiLSTM+CRF模型,可以有效地结合序列的上下文特征和标签信息,尤其在词性标注和命名实体识别中表现优秀。
摘要由CSDN通过智能技术生成

引言

  本文讨论的是序列标注问题,所使用的模型是将两种现有的模型(LSTM+CRF)进行拼接,一种模型是双向LSTM模型,一种是CRF模型。下面介绍如何结合LSTM和CRF用于sequence tagging,并且对这些结合的效果进行测量。

一、模型介绍

  本篇文章涉及以下几种模型:LSTM,BI-LSTM,CRF,LSTM+CRF,BI-LSTM+CRF。BiLSTM-CRF模型通过双向LSTM有效地捕捉到了输入的过去和未来特征。它也可以通过CRF层使用到句子级的标注信息。BiLSTM-CRF在POS(词性标记)、NER(命名实体识别)数据集上都取得了很好的效果。另外,与之前的工作相比,它更健壮,依赖于更少的词向量。

1. LSTM模型

  在实际建模中,RNN 经常出现梯度爆炸或梯度消失等问题,因此我们一般使用长短期记忆单元或门控循环单元代替基本的 RNN 循环体。它们引入了门控机制以遗忘或保留特定的信息而加强模型对长期依赖关系的捕捉,它们同时也大大缓解了梯度爆炸或梯度消失的问题。循环网络的每一个隐藏层都有多个循环单元,隐藏层 h t − 1 h_{t-1} ht1 的向量储存了所有该层神经元在 t − 1 t-1 t1 步的激活值。一般标准的循环网络会将该向量通过一个仿射变换并添加到下一层的输入中,即 W ∗ h t − 1 + U ∗ X t W* h_{t-1}+U* X_t Wht1+

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值