论文笔记：On the Strength of Character Language Models for Multilingual Named Entity Recognition

最新推荐文章于 2022-05-04 22:58:18 发布

xff1994

最新推荐文章于 2022-05-04 22:58:18 发布

阅读量309

点赞数

分类专栏：笔记文章标签：论文笔记命名实体识别 NER CLM

本文链接：https://blog.csdn.net/xff1994/article/details/90265251

版权

笔记专栏收录该内容

15 篇文章 2 订阅

订阅专栏

简介

本文提出了一种简单的、语料库无关的Character-level Language Model（CLM）。该方法不需要上下文信息即可判断token是否是entity。作者进一步将该方法用于一些经典的NER系统中以提高其识别效果。

Methods

在CLM中，每一个token都被看成一个句子，每个字母看做一个词，比如“Obama”会被看做句子“O b a m a”，以此训练语言模型。
本文方法在entity tokens和nonentity tokens上各训练一个CLM。然后比较token在entity CLM和nonentity CLM上的困惑度，在entity CLM上困惑度低则认为其是entity，否则是nonentity。
训练CLM的语言模型作者尝试了四个：N-gram model, Skip-gram model，CBOW和Log-Bilinear model (LB)。根据效果最终选取了N-gram model.
在这里插入图片描述
实验结果（F1）：

上图中，本文方法（SRILM）虽然比不上最后两行的系统，但是SRILM方法简单，不需要上下文等信息。

Improving NER with CLM features

本文方法只能识别出token是否是entity，弱于一般的NER系统。但是其可以用来增强已有的NER系统。利用本文方法可以给NER系统添加feature。文章中给出了两种feature：

Entity Feature

第一种是根据本文方法给token添加其是否是entity的信息。

Language Feature

英语中有很多外来名字，因此给命名实体识别带来了阻碍。利用本文方法在，在Arabic和Russian上各训练一个CLM，根据这两个CLM可以得到一个Arabic和Russian中的entity表，据此可以给NER系统提供是否是外来词的信息。

实验显示上述feature可以在一定程度上提高NER系统表现。

xff1994

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论文笔记：On the Strength of Character Language Models for Multilingual Named Entity Recognition

简介本文提出了一种简单的、语料库无关的Character-level Language Model（CLM）。该方法不需要上下文信息即可判断token是否是entity。作者进一步将该方法用于一些经典的NER系统中以提高其识别效果。Methods在CLM中，每一个token都被看成一个句子，每个字母看做一个词，比如“Obama”会被看做句子“O b a m a”，以此训练语言模型。本文方法...
复制链接

扫一扫

专栏目录