论文笔记:On the Strength of Character Language Models for Multilingual Named Entity Recognition

简介

本文提出了一种简单的、语料库无关的Character-level Language Model(CLM)。该方法不需要上下文信息即可判断token是否是entity。作者进一步将该方法用于一些经典的NER系统中以提高其识别效果。

Methods

在CLM中,每一个token都被看成一个句子,每个字母看做一个词,比如“Obama”会被看做句子“O b a m a”,以此训练语言模型。
本文方法在entity tokens和nonentity tokens上各训练一个CLM。然后比较token在entity CLM和nonentity CLM上的困惑度,在entity CLM上困惑度低则认为其是entity,否则是nonentity。
训练CLM的语言模型作者尝试了四个:N-gram model, Skip-gram model,CBOW和Log-Bilinear model (LB)。根据效果最终选取了N-gram model.
在这里插入图片描述
实验结果(F1):
在这里插入图片描述
上图中,本文方法(SRILM)虽然比不上最后两行的系统,但是SRILM方法简单,不需要上下文等信息。

Improving NER with CLM features

本文方法只能识别出token是否是entity,弱于一般的NER系统。但是其可以用来增强已有的NER系统。利用本文方法可以给NER系统添加feature。文章中给出了两种feature:

Entity Feature

第一种是根据本文方法给token添加其是否是entity的信息。

Language Feature

英语中有很多外来名字,因此给命名实体识别带来了阻碍。利用本文方法在,在Arabic和Russian上各训练一个CLM,根据这两个CLM可以得到一个Arabic和Russian中的entity表,据此可以给NER系统提供是否是外来词的信息。

实验显示上述feature可以在一定程度上提高NER系统表现。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值