中文NER1 之 simplify the usage of Lexicon in Chinese NER

ACL-simplify the usage of Lexicon in Chinese NER

近期有个项目跟提取地址实体有关,所以系统性的把ner相关研究重新review了一遍,顺便记录下笔,方便以后查询。
这篇论文下载https://arxiv.org/abs/1908.05969

这篇论文的启发是,利用Lexicon词汇信息去提升NER准确率,Lattice-LSTM(2018)是一个很好的例子。 该模型在中文NER benchmark表现好,但是计算效率比较低。这篇论文,就是受此启发,需要去加速。实现的方法,综述为:合并词汇信息到向量表示中,从而避免引入复杂的序列结构来表征词汇信息。工作聚焦在改变字符表征层,在四个banchmark中文NER上,试验结果都表现很好。

中文NER难的问题

NER是识别person location product orgnization实体词,在英文中这些特殊实体词都是自然的分割,比如大写或者空格。NER的任务是对文本中每个字符进行标注,所以它是一个序列标注问题。

在中文书写的规范中,是没有英文那种先天特殊词分割书写的优势,导致中文NER任务的难度增加。处理这个问题,一种通用的实践方法是先分词,再把词信息引入到序列标注任务。但是分词引入的错误,会影响下游序列标注任务的正确率。
比如:
     南京市/长江大桥。
 分词成:南京/市长/江大桥

这种分词会导致NER,很难把南京市识别为location实体与长江大桥识别为location实体。相反,很可能把南京识别成location,江大桥识别为person。

由于分词准确性不太理想问题,导致很多中文ner在实际使用场景都偏向于使用而非。但是词信息非常重要,2015和2018都有尝试去引入词信息到模型。为方式分词错的问题,最早的做法是把所有的分词情况都加入到模型,让模型去判断选那种分词。这种模型是2015年的基于LSTM-CRF的模型。结果证明Lattice-LSTM表现很好。缺点有:1.慢,2.这种结构很难转移到其他模型比如CNN或者Transformer上去。

这篇文章提出了

  1. 一种加速方法
  2. 一种编码lexicon词汇的方法

通用的NER结构

第一层,输入层(如 char+bichar 2018)
第二层,序列模型层,去获取字符之前的关系(如CNN / LSTM / Trnasformer
第三层,推理层 (如 CRF 2001)

中文NER的Lattice-LSTM

目标:合并字符与词汇作为输入
首先,利用lexicon matching在输入文本上,换句话说就是分词才用匹配的方式。获得了词后,会增加一个从字符ci 到 字符cj的有向边(i < j) 。ci为输入字符串中的字符,允许一个字符连接了多个字符(包含同一个字符的词有多个时)。采用这种方式过后,模型的输入由句子序列就变成了图。去实现这种结构,需要修改LSTM的内部结构,对应为:修改输入、 h state、c memorryCell。在更新阶段,输入包含:当前的字上一层的h state上一层的c对应的词。h和c都是数组。

这种设计中的不足:

  1. 在memory更新阶段需要额外的去增加s、 h、 c
  2. 设计的函数很难并行计算

本论文的方法

重新定义论文的要解决的问题(目标):

  1. 模型能够保留所有字可能的词
  2. 模型能够使用预训练词embedding

Softword technique来构建分词,并且给每个字符有多个标签。
比如
      句子s={c1,c2,c3,c4,c5}, 其中{c1,c2,c3,c4}和{c3,c4}是词。
句子转换成 segs(s) = {{B},{M},{B,M},{E},{O}}   BMESO标签。

这里segs(s)1={B}表示至少一个有一个以c1开头的词
  segs(s)3={B,M}表示至少有一个 以字符c3开头的词 或者 以字符c3出现在词中间的词

ExSoftword,每个字符有一个5维度的类别表示{B,M,E,S,O}。
通过分析,ExSoftword有两个缺点。

  1. 它不能支持预训练的word embeddings。
  2. 尽管它能够包催所有可能的词,但是仍然丢失了一些信息。

句子 s = {c1,c2,c3,c4} 中 {c1,c2,c3} 与 {c2,c3,c4}是词
  sges(s)={ {B}, {B,M}, {M,E}, {E} }
这种形式不能,反推或者还原,或者恢复 S就包含 {c1,c2,c3} 与 {c2,c3,c4}词。因为它同样也可以解释成,包含词{c1,c2,c3,c4} 与词{c2,c3}。这种方式,存在无法恢复原始的分词的问题。

改进版本
论文中提出,要保留每个字符可能的词的类别和字的分词。
改进的方法:每个字符分配四种类别 BMES。如果一个词是空的,则以NONE字符表示。
例子如下:
      s={c1,c2,c3,c4,c5}中词为{c1,c2},{c1,c2,c3},{c2,c3,c4},{c2,c3,c4,c5}
对与c2, 表示成
      B(c2)={{c2,c3,c4},{c2,c3,c4,c5}},
      M(c2)={{c1,c2,c3}},
      E(c2)={{c1,c2}},
      S(c2)={NONE}

从网上找到,一个具体具体示例
在这里插入图片描述

这种方式后,就满足论文的两点目标:能使用pre-trained word embedding 和 能覆盖字符的所有词。
具体input输入生成过程:
  把每个字符的四种词集合,压缩进一个固定维度的向量。为了尽可能保留原始信息,这里采用concate拼接四套词的表征,然后把它加到字符表征中去。
  其中,单字符的四个词集合中的每个集合,也需要映射到一个固定维度向量。使用的方法:mean-pooling与加权求和。前者效果差,后者效果好。
  加权的权值是根据词的频率计算,其中一点要求:当两个词中字符有重叠时,频率不增加,比如 南京南京市 。 当计算 南京市长江大桥 的词频率时,南京的词频就不增加,因为 南京南京市 重叠。这样做的好处是,可以避免 南京南京市频率高。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: 中文NER数据集是用于命名实体识别的中文语言数据集。NER自然语言处理中的重要任务之一,旨在识别文本中的命名实体,例如人名、地名、组织机构名称等等。中文NER数据集是一个用于训练和评估中文NER模型的关键资源,可以帮助研究人员和开发人员构建更加准确和有效的中文NER模型。 中文NER数据集通常包含大量的文本数据,并且每个实体都会标记不同的标签,例如人名、地名或组织机构名称等。中文NER数据集还需要满足高质量和多样性的要求,以确保训练的模型能够适应各种不同的语言环境和实体类型。 中文NER数据集的应用非常广泛,例如在搜索引擎、信息抽取和智能问答等领域中都有重要的应用。由于中文语言的复杂性和多样性,构建高质量的中文NER数据集是一项具有挑战性的任务,需要不断地努力和创新,以提高中文NER技术的准确性和效率。 ### 回答2: Chinese NER数据集是一个用于命名实体识别的中文文本数据集。其中的NER是指命名实体识别(Named Entity Recognition),也就是从文本中自动识别出人名、地名、组织机构名等实体信息的任务。这个数据集中包含了大量的中文文本数据,在文本上的标注信息可用于下一步的实体识别任务,也方便开展NLP技术相关的研究工作。 Chinese NER数据集的数据来源非常广泛,包括新闻报道、社交网络、采购合同、科技报告等不同类型的文本。这些文本都经过了专业的打标人员进行标注,标注的实体范畴包括人名、地名、机构名、时间、数字、货币等多种类型。这些标注信息可以被用于中文命名实体识别模型的训练和评估。 对于研究人员和大数据分析师而言,Chinese NER数据集可以为他们提供大量的中文文本数据,并且这些文本数据都包含着标注信息,有利于帮助他们更好地开发针对中文文本的命名实体识别算法和模型,并从中发掘有意义的结论。这个数据集的开放对于中文NLP技术的发展有着重要的意义,并且能够推动更多相关工作的开展。 ### 回答3: Chinese NER数据集是一种用于中文命名实体识别的数据集。命名实体是指在自然语言文本中具有特定意义的实体,例如人名、地名、机构名、日期和时间等。该数据集提供了一组带有标签的中文文本,可以用于训练和测试中文NER模型的准确性和性能。该数据集通常包含多个数据集,如MSRA、OntoNotes和Weibo等。它们是从不同的文本来源和类型中收集的,包括新闻、博客、社交媒体和文学作品等。数据集的规模可以有不同的级别,一些具有数千个标注实体,而其他的则可能包含成千上万的标注实体。使用这些数据集可以帮助研究人员和开发者训练出更准确的中文命名实体识别模型,在诸如信息抽取、机器翻译和搜索引擎等应用中发挥作用。在当前语言处理技术的快速发展和应用推广中,构建高质量的中文NER数据集是非常重要的。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值