命名实体识别是指在文本中定位命名实体的边界并分类到预定义类型的集合的过程。实体的标注形式有BIOE等,其中B是body的缩写,I是in的缩写,O是output的缩写,E是expect的缩写。
NER的输入是一个句子对应的单词序列 s = < w 1 , w 2 , . . . w n > s=<w_1,w_2,...w_n> s=<w1,w2,...wn>,输出是一个三元组集合,其中每个元组形式为 < I s , I e , i t > <I_s, I_e,i_t> <Is,Ie,it>,表示 s s s中的一个命名实体,其中 I s I_s Is和 T e T_e Te分别代表命名实体在 s s s中的开始和结束的位置,而 t t t是实体的类型。
对于NER任务,比较经典的方法是BILSTM-CRF,关于LSTM可以参见长短时记忆网络,CRF是一种判别式模型,直接建模并求解使 P ( Y ∣ X ) P(Y|X) P(Y∣X)最大的 Y Y Y,在CRF中,每个 y t y_t yt仅取决于 y t − 1 y_{t-1} yt−1,还取决于整个的输入 X X X。相比较与HMM,其计算速度会慢,但能够获取全局的特征信息。
BILSTM-CRF的基本模型结构:
第一层:分布式表示层:
分布式表示层有词向量、字向量和混合表示几种方法。词向量可以参看word embedding。字向量通常使用RN和CNN进行提取,字向量是词向量的重要补充,尤其在中文这一类表意文字上的应用往往能够取得好的效果;
第二层:BILSTM层
第三层:CRF层