简介
本文提出了一种简单的、语料库无关的Character-level Language Model(CLM)。该方法不需要上下文信息即可判断token是否是entity。作者进一步将该方法用于一些经典的NER系统中以提高其识别效果。
Methods
在CLM中,每一个token都被看成一个句子,每个字母看做一个词,比如“Obama”会被看做句子“O b a m a”,以此训练语言模型。
本文方法在entity tokens和nonentity tokens上各训练一个CLM。然后比较token在entity CLM和nonentity CLM上的困惑度,在entity CLM上困惑度低则认为其是entity,否则是nonentity。
训练CLM的语言模型作者尝试了四个:N-gram model, Skip-gram model,CBOW和Log-Bilinear model (LB)。根据效果最终选取了N-gram model.
实验结果(F1):
上图中,本文方法(SRILM)虽然比不上最后两行的系统,但是SRILM方法简单,不需要上下文等信息。
Improving NER with CLM features
本文方法只能识别出token是否是entity,弱于一般的NER系统。但是其可以用来增强已有的NER系统。利用本文方法可以给NER系统添加feature。文章中给出了两种feature:
Entity Feature
第一种是根据本文方法给token添加其是否是entity的信息。
Language Feature
英语中有很多外来名字,因此给命名实体识别带来了阻碍。利用本文方法在,在Arabic和Russian上各训练一个CLM,根据这两个CLM可以得到一个Arabic和Russian中的entity表,据此可以给NER系统提供是否是外来词的信息。
实验显示上述feature可以在一定程度上提高NER系统表现。