基于特征增强的苹果病虫害中文命名实体识别

(该文为文献解读,仅为个人理解,能力有限,如有表达不准确,请指出,立即改正)

基于特征增强的苹果病虫害中文命名实体识别

Chinese named entity recognition for apple diseases and pests based on character augmentation

简介

针对苹果病虫害领域中中文命名实体识别存在的问题,包括实体类别繁多、具有别名缩写的实体以及稀有实体识别困难等,提出了一种基于字符增强的中文命名实体识别模型APD-CA。具体来说,我们将字典和类似的单词合并到基于字符的BiLSTM CRF模型中,以增强字符表示。为了验证该模型的有效性,在ApdCNER上进行了实验,ApdCNER是一个包含21个实体类别的人工衍生的中国苹果病虫害语料库。实验结果表明,基于ApdCNER的APD-CA模型的精确度、召回率和F1分数分别为92.29%、91.99%和92.14%,与基线模型和其他四种最先进的模型相比有所提高。该改进验证了本文提出的模型在苹果病虫害领域的命名实体识别中具有性能优势。其他实验结果也证明了该模型具有效率优势和一定的推广优势。

中文命名实体识别  苹果病虫害  词典及相似词  神经网络   自制语料库

背景

近年来,命名实体识别(NER)作为自然语言处理中的一项基本任务受到了广泛关注。相应的研究方法大致可分为三大类:基于规则的方法、机器学习方法和深度学习方法。基于规则的方法主要依靠人工设计的规则和字典。机器学习方法将命名实体识别视为序列标记,并使用大量的机器学习模型来提高命名实体识别的效果。典型模型包括隐马尔可夫模型(HMM(Zhou和Su,2002)、最大熵马尔可夫模型(MEMM)、支持向量机(SVM)和条件随机场(CRF(Skeppstedt等人,2014)。

为了解决苹果病虫害领域的命名实体识别问题,我们构建了苹果病虫害命名实体识别语料库ApdCNER,并提出了一种深度学习模型APD-CA,该模型采用基于特征的BiLSTM-CRF模型作为基线模型。针对稀有实体和别名识别能力差的问题,我们在模型中加入词典,提供更多的语义信息和实体边界信息,并提出了一种词汇融合方法,使模型能够同时处理多个句子。针对某些实体类别数据较少的问题,我们通过整合相似词来补充句子语义,以弥补数据的不足。本文的主要贡献可总结如下:

(1) 构建了苹果病虫害中文命名实体识别语料库ApdCNER,共包含21个实体类别。该语料库的实体类别划分比一般语料库更为精细。

(2)我们提出了一个苹果病虫害语料库的中文NER模型APD-CA,并通过合并词典和相似词来提高识别效果。

(3) 基于ApdCNER的实验结果表明,与基线模型和四种最先进的(SOTA)模型相比,APD-CA模型具有更好的性能,并且训练速度非常接近基线模型。

图文导读

一、数据集来源

构建苹果病虫害ApdCNER语料库。

1.原始语料库:

2.实体分类:四类,细分为21个类别

3.语料库标注方式:BMES标记方式、为减少标注时间和保持实体一致性用半自动方式

1)在数据预处理过程中提取公共实体以构造实体集

2)根据实体集对原始语料库进行字符匹配,并自动标记实体

3)对语料库进行手动调整和改进,并在此过程中不断更新实体集

中国苹果病虫害语料库ApdCNER,共包含11876个实体和5574个样本。

4.与其他语料库相比

二、APD-CA模型

基于字符的BiLSTM-CRF作为主要网络结构,包含四层:嵌入层、字符增强层、BiLSTM层和CRF层。

1.嵌入层:

对于基于字符的BiLSTM-CRF模型,第i个时间步长的输入是字符序列s={c0,c1,c2,…,cn}中的第i个字符。在单个字符的基础上,我们使用二元字符来扩展字符表示。如图所示:

2.字符增强层:

为了解决实体类别分布不均匀以及难以识别别名稀有实体的问题,我们通过增加字符的语义信息来提高识别效果包括字典和类似的单词。将匹配词分为四类,并提出了一种词融合方法来加速模型训练。提出了两种策略,将相似的词合并到模型中,以提供额外的语义信息。

第一,将字典合并到模型中。词典使模型能够充分利用词序信息,有效提高别名和稀有实体的识别效果。我们根据字典从句子中提取每个字符ct的匹配词wij。在匹配单词之后,这些单词根据字符ct在wij中的位置分为四类{B,M,E,S}。四个类别的定义如公式所示:

在获得分类词集后,每个词集中的词需要依次合并成一个固定维向量,参考TF-IDF思想,提出了一种新的词汇融合方法。该方法首先使用语料库中句子总数和包含w的句子数的商的对数来衡量单词w对序列s的重要性,然后使用该对数与w频率的乘积作为单词融合过程中w的权重。融合方法的定义如式所示:

第二,相似的词被整合到模型中。我们使用余弦相似度方法从包含语料库中所有句子中匹配的单词的单词集中计算每个单词w i之间的相似度,并设置相似度值以过滤单词。

策略一:以相似度为权重将相似词整合到原始词中,然后根据分类将这些词添加到特征向量中。

xwi表示单词wi的特征向量,该特征向量在其相似单词融合后,替换从单词嵌入获得的集合{B,M,E,S}中的原始单词向量。ew表示预训练单词嵌入,k表示余弦相似度计算函数,p表示单词wi的相似单词,H表示过滤后的相似单词集。

字符ci的匹配字与其相似字合并后,根据分类顺序将其添加到字符向量中:

其中Xci表示嵌入层中构造的字符表示。xci表示由第一种策略扩充的字符表示。

策略二:将字符ci的所有匹配字的相似字合并到一个固定维向量中,并添加到字符向量中。为了在融合过程中更合理地保留语义信息,我们在权重中加入了原始词频的归一化。

E表示四个分类集中单词的并集,f(w)表示单词的频率,D表示集合E中所有单词的频率之和。

在计算相似单词的特征向量后,将其与其他四组中的单词添加到字符向量中:

其中G表示由相似单词融合形成的固定维向量。Xci,表示第二种策略增加的字符表示。

三、实验过程

(APD-CA模型和最新模型之间的比较、训练时间上的比较、泛化性能的比较、消融实验、相似性对模型的影响、不同序列建模架构下APD-CA的比较、代表性类别的比较)

1.参数设置:

2.模型比较:

模型II比模型I具有更好的识别性能,表明与直接将相似词集成到原始词中相比,将相似词作为单独的类别添加到字符表示中不会丢失信息,并且可以完全恢复角色增强过程。模型II用于表示APD-CA模型。

3. APD-CA模型和最新模型之间的比较

比较结果如表所示。与当前SOTA相比,APD-CA模型在三个评估指标上取得了最佳结果。Lattice LSTM的性能不佳是由于RNN的模型结构和特性导致了字信息的严重丢失。在某些极端情况下,Lattice LSTM将退化为部分基于单词的模型。LR CNN模型过于复杂,需要训练的参数太多。ApdCNER中各实体类别的计数分布差异较大,有些类别在训练集中较少,不足以支持该模型的训练。WC LSTM忽略了字符出现在中间的单词。例如,单词“幼虫体(幼虫体)“将不会合并到以下表示的载体中”虫(蠕虫)”,导致信息丢失。SoftLexicon在三个评价指标上都优于前三种模型,但它在融合过程中直接使用每个单词的频率作为权重,忽略了单词本身的重要性。与其他模型相比,APD-CA模型在召回率、准确率和F1得分分别为91.99%、92.29%和92.14%。

4.训练时间上的比较

5.泛化性能的比较:

APD-CA模型在三个语料库中的F1得分最高,分别为61.84%、85.67%和80.77%。微博F1得分最低的原因是因为句子中有更多的网络词语,而且语序是口语化的。实验结果表明,APD-CA模型不仅在ApdCNER语料库上具有性能优势,而且在其他领域也具有一定的推广性

6.消融实验(假设在某目标检测系统中,使用了ABC,取得了不错的效果,但是这个时候你并不知道这不错的效果是由于ABC中哪一个起的作用,于是你保留AB,移除C进行实验来看一下C在整个系统中所起的作用

实验结果表明,词语融合方法和相似词语的加入提高了模型的识别效果,这两个方面都是整个模型的重要组成部分。

7.相似性对模型的影响:

从图中可以看出,当相似性增加时,我们模型的性能首先急剧增长,然后保持稳定,最后下降。随着相似性值的增加,相似词的数量也随之减少。整合相似度较高的词可以提高识别性能,但当相似词不足时,性能会下降。

8.不同序列建模架构下APD-CA的比较:

在APD-CA模型中,利用BiLSTM对字符序列进行建模更为合理。

9.实体类别研究:

与其他模型相比,APD-CA模型总体上取得了较好的识别效果,同时也提高了对一些难以识别的实体类别的识别能力,进一步证明了该模型的有效性。

10.通过不同模型预测实例的结果:

四、总结

构建了苹果病虫害ApdCNER语料库,与通用语料库相比,该语料库对实体的分类更加精细。根据苹果病虫害文本的特点,提出了一种有针对性的APD-CA模型,该模型通过引入字典和相似词来增强字符的语义信息,提高识别效果。同时,我们还提出了一种词语融合方法两种相似词语的合并策略。实验结果表明,与其他SOTA模型相比,APD-CA模型具有更好的识别性能和效率。在其他领域的语料库中也有一定的推广作用。

文献信息:

Zhang J, Guo M, Geng Y, et al. Chinese named entity recognition for apple diseases and pests based on character augmentation[J]. Computers and Electronics in Agriculture, 2021, 190: 106464.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值