【NER-0】-2016 NAACL BiLSTM-CRF

最新推荐文章于 2024-08-10 22:15:42 发布

应有光

最新推荐文章于 2024-08-10 22:15:42 发布

阅读量261

点赞数

分类专栏：命名实体识别（NER) 文章标签：深度学习自然语言处理

本文链接：https://blog.csdn.net/zeiyousao/article/details/125395989

版权

命名实体识别（NER) 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

BiLSTM-CRF是2016年NAACL的Neural Architectures for Named Entity Recognition,其是NER领域的重要模型。

Pass1

1.看时间和标题，由于是2016年，我估计那时候用神经网络的方法还不多，所以本文应该是主要提出应用于NER的神经网络架构。
2.看摘要：传统NER方法依赖于手工特征与领域特征，以用于在小的、有监督corpora上进行训练。本文提出两个神经网络的架构，第一个是LSTM+CRF；第二个是由 shift-reduce parsers启发的，基于transition的方法。（LSTM+CRF应该就是之前的Baseline模型）。与之前的模型依赖手工特征和领域知识不同的是，本模型只需要依赖于两种特征：

character-based word representations learned from the supervised corpus
unsupervised word representations learned from unannotated corpora.

3.实验：本文在四种语言上做了实验：English, Dutch, German, and Spanish。**注意并没有中文！**具体我们可以观察一下：
在这里插入图片描述
在英语NER结果上，我们注意到BiLSTM-CRF是底下模型中最好的；上方模型相当于是别人的模型，也并没有详细说；但是我们注意不少模型都和本模型的效果差不多，甚至更好。原文对于其中几个模型的简介如下：

Lin and Wu (2009) used a linear chain CRF with L2 regularization, they added phrase cluster features extracted from the web data and spelling features.
Passos et al. (2014) also used a linear chain CRF with spelling features and gazetteers.
The best score reported on this task is by Luo et al. (2015). They obtained a F1 of 91.2 by jointly modeling the NER and entity linking tasks (Hoffart et al., 2011). Their model uses a lot of hand-engineered features including spelling features, WordNet clusters, Brown clusters, POS tags, chunks tags, as well as stemming and external knowledge bases like Freebase and Wikipedia.

总而言之，使用了很多的额外特征，确实效果比较好；但是本文认为自己没有使用额外的特征，已经比上述大多数的网络好，也得到很好的效果。all other system这里其实比较魔，本文做的不同数据集上的实验很多，别的模型也并不是都在这四个数据集实验，不过效果确实倒是好。
在这里插入图片描述
4. 看总结：本文提出两个基于神经网络的模型，用于序列标注；与一些使用了外部资源的模型比，得到了最好的NER结果；作者认为自己模型的关键是，建模了label的依赖关系，通过CRF或者 transition-based algorithm来显式地建立或者标注词语块信息。同时，作者认为词语的表达是非常重要的。作者同时使用了基于预训练的词语表达，以及使用了t capture morphological and orthographic 的“character-based”的表达。为了防止模型过度的依赖于特征，使用了dropout的训练方法避免过拟合。

5.最后开源代码如下：

LSTM-CRF:https://github.com/glample/tagger
Stack-LSTM:https://github.com/clab/stack-lstm-ner

pass2

这里主要就看BiLsTM+CRF的模型了。模型这里主要使用BiLSTM提取词语序列信息，然后用CRF做序列标注。其实主要是对CRF不太熟悉，感觉这里的模型和我认知中的CRF不太一样。。
在此之前，我们需要熟悉一下NER的标签，这里介绍了两种体系：

IOB format (Inside, Outside, Beginning) 即实体头，实体内部，实体外部。
IOBES tagging scheme（E:end，S:Singleton entities也就是说单实体）
本文在实践中，并没有观察到两种实体标注方法存在显著优劣。

主要使用BiLSTM的双向信息拼接而成的向量，作为语义特征；其输入是word embedding。
之后的CRF部分是一个图模型，不是神经网络，要注意。作者认为，考虑到NER标注不能当作条件独立的序列标注任务，例如A标签的Inter不能跟在B标签的begin后面，存在这样的约束关系。序列的任务可以被定义为，输入为 $x_1,x_2,...,x_n$ 的词语序列，输出为 $y_1,y_2,...,y_n$ 的标注序列。首先定义“势函数”（或者说势函数的指数部分比较恰当？）

由于任务是给长度为n的序列，标注标签，标签有 $k$ 个类别。其中，A是一个状态转移矩阵，这里表示从 $y_i$ 状态到 $y_{i+1}$ 的分数，特别的，由于存在begin和end两个标签，因此A是一个 $k + 2$ 大小的方阵。P矩阵的含义如下图所示，相当于是各个词语对应的标签的概率分数，由神经网络给出。（不过A由谁给出呢？）

然后序列标注对应的概率分布如下所示，训练时取对数似然。注意到对于各个可能的序列，概率的分母部分是一样的，所以我估计是可以忽略的，下面那个 $l o g a dd$ 我没看懂是什么情况，还有这种运算？

训练完毕后的模型，其预测方法如下：

估计是采取维特比算法吧，嗯，不过CRF这里应该是假设一个标签只和之前和之后的标签相关，所以是Bigram的联系。