NLP研究之命名实体识别(上)

        命名实体识别(Named Entity Recognition,NER),是NLP领域的一项基础任务,与分词、词性标注都属于词法分析的范畴,作为NLP的上游任务,其结果直接影响下游任务的效果。NER具有广泛的应用,是机器翻译、知识图谱、智能对话系统、句法分析任务、信息抽取等任务的基础。

        什么是“命名实体”?简单可以理解为具有特殊意义的名词,常见的如人名、地名、组织机构名、日期、时间、货币等一些指代性比较强的,区别于生活中的普通名词比如计算机、互联网、宇宙、天气等具有普适意义的词,当然,这仅仅是一个通俗的理解。在业界,往往会根据自身的业务去做更细粒度的划分,比如公司的产品、厂商、产品价格,这些都不会脱离前面的概念,比如厂商的上位词就是组织机构,价格的上位词就是货币,具体怎么定,根据实际业务去抽象即可。

        了解了“命名实体”的基本概念后,接下来,什么是“命名实体识别”呢?“识别”顾名思义,形象化一点,就是让我们的机器学习模型从实际的文本数据集(语料库)中分析,判断,标记出具体的命名实体,通常会涉及到两个关键点:(1)命名实体的边界识别;(2)命名实体所属的类别(比如人名、地名、组织机构名等等)。在学术研究领域中,命名实体一般包括3大类(实体类、时间类、数字类)和7小类(人名、地名、组织机构名、时间、日期、货币、百分比)。在业界,NER模型通常只要识别出常见的,如人名、地名、组织机构名、日期时间即可。

        NER是很多下游任务的基础任务。对于机器翻译任务而言,命名实体的翻译(如人名、专有名词、组织机构等),常常会有某些特殊的翻译算法(比如中译英任务中,中文人名翻译成英文时,要使用名字的拼音来表示,有名在前姓在后的规则),而普通的词语要翻译成对应的英文单词。准确识别出文本中的命名实体,对于提高机器翻译的效果有重要意义;对于智能问答任务而言,准确识别出问题的各个组成部分、问题的相关领域、相关概念是智能问答任务的重点和难点。目前,大多数智能问答系统是以搜索为基础的,就是搜索答案,而非计算答案,搜索实质上进行的是关键词匹配,用户根据搜索结果人工提取答案,而更加友好的方式是把答案计算好呈现给用户,其中很多时候,需要考虑到实体之间的关系,比如“1950年,中国的外交部长是谁”,那么答案就需要考虑到实体之间的关系,这些实体包括“1950年”、“中国”、“外交部长”,根据这些实体关系判断,结果返回“周恩来”,而非现任部长“王毅”,这就是命名实体识别效果对智能问答系统的影响。对于知识图谱而言,NER甚至是一个核心任务,因为图谱的元素就是实体和关系,整个知识图谱的构建都是围绕实体以及实体之间的关系展开研究的,可见其重要程度,不言而喻。对于事件抽取而言,一个事件由3个主要元素组成,即时间、地点、人物,这3个词都是命名实体,不用多说了吧,可见事件抽取,精力主要集中在NER任务,再结合事件的关系,模型输出最终的事件摘要信息,等等,可见NER贯穿整个NLP领域。

        关于NER的研究当前已经不是什么新话题了,即使已经研究了很长时间了,但是仍然有很多难点和挑战,主要原因有:(1)命名实体识别只是在有限的语料类型(主要是新闻语料)和实体类别(主要是人名、地名)中取得了效果;(2)与其他信息检索领域相比,命名实体评测语料较小,容易产生过拟合;(3)命名实体识别更侧重高召回率,但在信息检索领域,高准确率更重要,这也意味着,指标评测的权衡需要更多考虑;(4)通用的识别多类型的命名实体识别模型表现欠佳。同时,自然语言语种的复杂多样,也带来了一定的挑战,比如,中文的命名实体识别与英文的命名实体识别相比,难度更大。比如,英文的命名实体具有很明显的形式标志,即实体中的每个词的第一个字母要大写,所以对实体边界的识别相对容易,任务的重点是确定实体的分类。而中文NER任务更加复杂,并且命名实体边界的识别的难度要大于实体分类,其主要难点在于:(1)中文语料没有像英文语料那种明显的词边界,如空格之类的符号,所以,中文命名实体识别的第一步就是确定词的边界,即中文分词,虽然中文分词已经很成熟了,但是,想要获得比较好的效果,仍然需要花费我们科研人员的精力,而且中文分词时,也会涉及到命名实体,并非独立,比如我们在中文分词常说的词典方式加载自定义词,实质上就是命名实体,这样看来,就比较复杂了,中文分词与实体识别相互影响;(2)中文命名实体识别任务,有时包含有英文的实体识别,比如外国人名译名和地名译名,通常网络文本中,常常出现中英文交替使用,这导致在中文实体识别中还夹杂有英文的实体识别,也增加了一定的难度;(3)不同的命名实体具有不同的特征,想要利用训练一个通用模型来解决是不现实的;(4)新词的不断涌现给实体识别也带来了比较大的困难,主要表现在:a.标注语料老旧,覆盖不全,现如今的流行语、虚拟人物、网红、各种昵称等等,旧词新意,典型的“苹果”一词,在苹果公司未成立前,表示一种水果,而如今要想正确识别,还要考虑上下文关系,这也是难点所在。(5)语言的歧义消解,也是难点所在。

        了解了命名实体识别的基本概念、应用、以及难点后,下期介绍NER的研究进展和流行的解决方法。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CSAIWQYB

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值