【NER-0】-2016 NAACL BiLSTM-CRF

BiLSTM-CRF是2016年NAACL的Neural Architectures for Named Entity Recognition,其是NER领域的重要模型。

Pass1

1.看时间和标题,由于是2016年,我估计那时候用神经网络的方法还不多,所以本文应该是主要提出应用于NER的神经网络架构。
2.看摘要:传统NER方法依赖于手工特征领域特征,以用于在小的、有监督corpora上进行训练。本文提出两个神经网络的架构,第一个是LSTM+CRF;第二个是由 shift-reduce parsers启发的,基于transition的方法。(LSTM+CRF应该就是之前的Baseline模型)。与之前的模型依赖手工特征和领域知识不同的是,本模型只需要依赖于两种特征:

  • character-based word representations learned from the supervised corpus
  • unsupervised word representations learned from unannotated corpora.

3.实验:本文在四种语言上做了实验:English, Dutch, German, and Spanish。**注意并没有中文!**具体我们可以观察一下:
在这里插入图片描述
在英语NER结果上,我们注意到BiLSTM-CRF是底下模型中最好的;上方模型相当于是别人的模型,也并没有详细说;但是我们注意不少模型都和本模型的效果差不多,甚至更好。原文对于其中几个模型的简介如下:

  1. Lin and Wu (2009) used a linear chain CRF with L2 regularization, they added phrase cluster features extracted from the web data and spelling features.
  2. Passos et al. (2014) also used a linear chain CRF with spelling features and gazetteers.
  3. The best score reported on this task is by Luo et al. (2015). They obtained a F1 of 91.2 by jointly modeling the NER and entity linking tasks (Hoffart et al., 2011). Their model uses a lot of hand-engineered features including spelling features, WordNet clusters, Brown clusters, POS tags, chunks tags, as well as stemming and external knowledge bases like Freebase and Wikipedia.

总而言之,使用了很多的额外特征,确实效果比较好;但是本文认为自己没有使用额外的特征,已经比上述大多数的网络好,也得到很好的效果。all other system这里其实比较魔,本文做的不同数据集上的实验很多,别的模型也并不是都在这四个数据集实验,不过效果确实倒是好。
在这里插入图片描述
4. 看总结:本文提出两个基于神经网络的模型,用于序列标注;与一些使用了外部资源的模型比,得到了最好的NER结果;作者认为自己模型的关键是,建模了label的依赖关系,通过CRF或者 transition-based algorithm来显式地建立或者标注词语块信息。同时,作者认为词语的表达是非常重要的。作者同时使用了基于预训练的词语表达,以及使用了t capture morphological and orthographic 的“character-based”的表达。为了防止模型过度的依赖于特征,使用了dropout的训练方法避免过拟合。

5.最后开源代码如下:

  • LSTM-CRF:https://github.com/glample/tagger
  • Stack-LSTM:https://github.com/clab/stack-lstm-ner

pass2

这里主要就看BiLsTM+CRF的模型了。模型这里主要使用BiLSTM提取词语序列信息,然后用CRF做序列标注。其实主要是对CRF不太熟悉,感觉这里的模型和我认知中的CRF不太一样。。
在此之前,我们需要熟悉一下NER的标签,这里介绍了两种体系:

  • IOB format (Inside, Outside, Beginning) 即实体头,实体内部,实体外部。
  • IOBES tagging scheme(E:end,S:Singleton entities也就是说单实体)
    本文在实践中,并没有观察到两种实体标注方法存在显著优劣。
    在这里插入图片描述
    在这里插入图片描述
    主要使用BiLSTM的双向信息拼接而成的向量,作为语义特征;其输入是word embedding。
    之后的CRF部分是一个图模型,不是神经网络,要注意。作者认为,考虑到NER标注不能当作条件独立的序列标注任务,例如A标签的Inter不能跟在B标签的begin后面,存在这样的约束关系。序列的任务可以被定义为,输入为 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn的词语序列,输出为 y 1 , y 2 , . . . , y n y_1,y_2,...,y_n y1,y2,...,yn的标注序列。首先定义“势函数”(或者说势函数的指数部分比较恰当?)
    在这里插入图片描述
    由于任务是给长度为n的序列,标注标签,标签有 k k k个类别。其中,A是一个状态转移矩阵,这里表示从 y i y_i yi状态到 y i + 1 y_{i+1} yi+1的分数,特别的,由于存在beginend两个标签,因此A是一个 k + 2 k+2 k+2大小的方阵。P矩阵的含义如下图所示,相当于是各个词语对应的标签的概率分数,由神经网络给出。(不过A由谁给出呢?)
    在这里插入图片描述
    然后序列标注对应的概率分布如下所示,训练时取对数似然。注意到对于各个可能的序列,概率的分母部分是一样的,所以我估计是可以忽略的,下面那个 l o g a d d logadd logadd我没看懂是什么情况,还有这种运算?
    在这里插入图片描述
    训练完毕后的模型,其预测方法如下:
    在这里插入图片描述
    估计是采取维特比算法吧,嗯,不过CRF这里应该是假设一个标签只和之前和之后的标签相关,所以是Bigram的联系。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值