【NER-1】-2018 ACL Lattice-LSTM

应有光

已于 2022-07-15 15:19:16 修改

阅读量521

点赞数

分类专栏：命名实体识别（NER) 文章标签：深度学习自然语言处理 lstm

于 2022-07-08 13:50:35 首次发布

本文链接：https://blog.csdn.net/zeiyousao/article/details/125422593

版权

命名实体识别（NER) 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

本文介绍了Lattice LSTM在中文命名实体识别中的应用，通过引入晶格结构，结合字符和词语信息，减少词边界错误，提高NER准确性。模型利用Gated Recurrent Cells动态控制信息流动，尤其关注多音字处理和词表独立性。

摘要由CSDN通过智能技术生成

本文隶属于词表增强的模型，对后续的NER工作有较大的影响。

Pass1

看标题，针对中文NER，设计了一种Lattice（晶格）LSTM，虽然不知道这是什么LSTM，但既然主角是LSTM，那就是应该在LSTM的基础上做事。

看摘要：本文引入一种晶格（lattice)结构的LSTM模型，其对一序列输入以及词典中所有潜在的词语编码。和以字符（character-based）为基础的方法，本模型显式的引入了词语和词语序列的信息。和以词为基础（word-based）的方法比较，晶格LSTM并不会引入分割误差（segmentation errors）。Gated recurrent cells使得模型能够选择最相关的characters、words，在LSTM中。

那么看起来lattice LSTM是一种不同于词、字符的方法。

开源代码： https://github.com/jiesutd/LatticeLSTM.

总结：除了之前已经看到的地方，作者对本方法的总结是：The lattice method is fully independent of word segmentation, yet more effective in using word information thanks to the freedom of choosing lexicon words in a context for NER disambiguation.

主要图：
首先作者大概描述了lattice是什么意思。在这里插入图片描述
例如，利用分词系统，还是可以排除一些实体的错误，例如分词得到的长江、大桥，可以避免我们得到不恰当的实体“江大桥”。（不过反过头来说，南京市长江大桥，也不是说不行…)

我突然就想到多音字这个问题了。。市长（zhang) 和长（chang)江大桥。但反过头来说，这样的多音字，很多吗？

这里的意思是，利用gated cells动态的控制词语路径的流动信息。

我们大概可以明白lattice的意思，其实就是以字为单位，以分词系统为参考，达到分割的目的，而不是完全依赖于词语的分割。不过具体这个怎么看，就不太清楚了。

Pass2

2.1 介绍

研究现状：
中文NER中，词语边界一般也是NER的边界；比较经典的方法就是先进行分词，再进行词语序列的NER标注。但是可能存在误差传播，因为NE本身很多都是词表外的词语，错误的词边界自然也就导致错误的NER边界。因此，开放领域（open domain）的NER依旧是严重的问题。相关实验证明，中文NER基于字（character)进行实验，效果会比较好。
不足:
但是基于字的NER工作，并没有有效利用词语(word)和词语序列(word sequence)的信息。因此，作者提出将latent word information融入基于字符（character based)的LSTM-CRF模型，具体体现在representing lexicon words from the sentence using a lattice structure LSTM.

2.2 模型

首先是任务的形式化表达，其中句子表示为 $s=c_1,c_2,...,c_m$ ，也就是说 $c_j$ 是第j个字符；句子也可以表示为 $s=w_1,w_2,...,w_n$ ，其中 $w_i$ 是第i个词语。另外用记号 $t (i, k)$ =j表示，下标第i个词语中的第k个字符，是句子的j个字符。例如对于切分“南京市长江大桥”，其中 $t (2, 1) = 4$ ， $t (1, 3) = 3$ 。其中使用BIOES标注法，标记基于词语或基于字符的NER标签。

首先很重要的是，如何获取模型的特征，然后才是模型部分。

2.2.1 基于字符的模型

主要流程是：
$x^c_j=e^c(c_j)$
其中e^c表示对应的embedding表。然后将 $x^c_j$ 输入双向LSTM中，获得双向的词语隐向量，拼接后得到 $h^c_j$ 。因此对于序列 $s=x_1,x_2,...,x_m$ ，可以得到特征向量 $h^c_1,h^c_2,...,h^c_m$

具体的，可以引入bichar特征，如下：
$x^c_j=[e^c(c_j);e^b(c_j,c_{j+1})]$
其中 $e^b()$ 也表示embedding表，只不过是bigram的查找表。
第二种方法是引入sementation label嵌入，这个
在这里插入图片描述
其后的LSTM特征获取还是一样的。

2.2.2 基于词的模型

一般流程也是和基于字符的模型差不多，只不过先进行分词，得到词语以后再进行相应的embedding操作。
$x^w_j=e^w(w_j)$
其中 $e^w$ 表示embedding的查找表， $w_j$ 表示的是第 $j$ 个词语。
或者也可以通过将基于词和基于字的嵌入拼接，获得融合后的表示方法。

2.2.2这一小节结构挺乱的…，因为后面讲到的三种方法，都没有用所谓的词语embedding，而都是基于字符embedding操作的。。

这里有几种不同的方法获得句子序列的嵌入：

word+Char LSTM
word+Char LSTM’
Word + Char CNN

三种方法如下所述：
word+Char LSTM，就是在词语内部，利用 $e^c(c_j)$ （没错，这里用的是字嵌入）输入到双向LSTM中，获得对应的输出，最后将词语隐状态（没错，虽然它写作 $x^c_i$ ，其表i示如下：
在这里插入图片描述
word+Char LSTM’：是换用了不同的网络结构完成操作，获取词语的表示方法也是同上图。
word+Char CNN：略

2.2.3 Lattice Model

模型的输入是字符序列 $c_1,c_2,...,c_m$ 以及所有的能够满足词表 $D$ 的字符串子序列。我们用如下记号 $w^d_{b,e}$ 表示从下标 $b$ 开始，到下标 $e$ 结束的字符子序列组成的词语，例如 $w^d_{1,2}$ 表示“南京”，而 $w^d_{7,8}$ 表示“大桥”。

首先叙述基础的LSTM结构，其构造如式(11)所示。
在这里插入图片描述
但是本模型不是一个纯词语的模型，还加入一个基于词表的模型，这一部分的输入如下所示：

其中 $x^w_{b,e}$ 表示的是词语的embedding嵌入。但是值得注意的是，这里对于从下标b字符开始的词语的信息，是根据字符LSTM的隐状态 $h_b$ 和词嵌入 $x_{b,e}$ 生成的；词语LSTM是没有循环的。前文所说，我们可以输入满足词表 $D$ 的字符串子序列。因此，对于不同的词语序列，输入采取的措施是：
在这里插入图片描述
也就是说，对于位置在 $j$ 的字符，我们需要所有结束于位置 $j$ 的词语的词向量，来获取 $c^c_j$ 这个记忆部分。其中各个权值，采用各个LSTM的 $i g n ore$ 分数做归一化就行，如下所示：

2.2.4 CRF解码模块

经过以上的手法获取序列的特征向量后，使用如下的方法预测某个序列的概率。

在这里插入图片描述
其中 $W^{l_i}_{CRF}$ 和 $b^{l_{i-1},l_i}_{CRF}$ 都是相关的参数。在训练完相应的模型后，使用维特比算法得到最大分数的序列。那么模型的损失函数如下：

CRF模块是序列标注的常见模块，功能上类似一般神经网络最后的全连接分类器（例如softmax分类器）。其为概率图模型，虽然很多教科书上都有，但是不够详细。后续将基于理论、实践进行详细讲解。