论文阅读:EMPIRICAL ANALYSIS OF UNLABELED ENTITY PROBLEM IN NAMED ENTITY RECOGNITION

该研究关注命名实体识别(NER)任务中未标注实体带来的影响。由于数据标注的不完全性和成本,未标注实体可能被错误地当作负样本,导致模型性能下降。论文提出了一种新模型,通过片段排列方式处理NER,并采用负采样策略减少未标注实体的负面影响。实验在多个数据集上展示了这种方法的有效性,为改善NER模型处理未标注实体提供了新思路。
摘要由CSDN通过智能技术生成

论文阅读:EMPIRICAL ANALYSIS OF UNLABELED ENTITY PROBLEM IN NAMED ENTITY RECOGNITION1

0. Summary

由于人工打标的昂贵性和远程监督学习打标的不完整性,NER目前存在未标注实体这一问题。未标注实体指的是本应该有确定标签的比如(British B-MISC),在有些数据集中却将这些实体作为负样本,也即看做(British O)。数据的缺失给NER带来了两方面的影响,第一就是标注实体的减少,这个可以通过采用预训练模型来解决(为什么呢),并不是问题的关键。第二个方面就是将未标注实体作为负样本给模型带来的误导。

本文主要解决第二个问题,利用负采样,将训练中未标注的实体保持在一个很低的概率。

1. Research Objective

  • 未标注实体对于NER模型的影响

  • 解决NER中数据漏标的问题。

2. Background and Problems

  • 对于完整标注的数据集:LSTM-BERT
  • 远程监督NER会造成数据漏标
  • 对于不完整标注的数据集、多标签数据集:Fuzzy CRF and AutoNER、positive-unlabeled (PU) learning 、Partial CRF。
  • 还是存在无法辨认真正的负样本、不能对相邻实体进行消歧(什么意思呢

3. Method

3.1 验证未标注实体对模型的影响

在conll2003和OneNotes5.0上分别以0.0-0.9的概率随机移除一些标注好的实体的标签。然后分别使用BERT和LSTM两种模型,也即2×10×2组实验。

相较于一般的负对数似然函数的loss函数,本文移除了未标注实体对于模型的影响,因为这是构造的实验数据,所以移除的标签是是已知的,但是在现实的数据集中并不是已知的。loss函数如下所示:(感觉对于这里直接减去未标注的loss有点疑惑

在这里插入图片描述

同时设计了两种评价指标来度量未标注实体给模型带来的影响。

首先是erosion rate α p \alpha_p αp,用以评价标注实体的减少对于模型的影响
α p = f 0 a − f p a f 0 a \alpha_p=\frac{f^a_0-f^a_p}{f^a_0} αp=f0af0afpa

第二个指标为misguidance rate β p \beta_p βp,代表未标注实体对当作负样本时、对NER指标下降的影响程度
β p = f 0 a − f p f p a \beta_p=\frac{f^a_0-f_p}{f^a_p} βp=fpaf0afp
其中, f p a f^a_p fpa是指在调整后(更改loss函数)的模型的表现(F1 score), f p f_p fp是指原模型的表现(F1),p是指随机去除标签的概率。

3.2 提出新的模型

在这里插入图片描述

摒弃传统的token标记方法,采用片段排列方式进行NER。对于含N个token的文本,理论上共有N(N+1)/2种片段排列。片段排列标注会出现大量的负样本。

  1. 首先用BERT或者LSTM进行编码,得到每个token的隐表示h

  2. 对于 x i , j x_{i,j} xi,j s i , j s_{i,j} si,j表示为(这个公式的来历有点疑惑,需要查询相关文献),先对两个向量进行级联,然后再对两个向量相减后进行级联,再对两个向量的点积进行级联:

在这里插入图片描述

  1. 经过MLP层输出最后的结果o:

在这里插入图片描述

MLP(Multi-Layer Perceptron)是一种前向结构的人工神经网络,映射一组输入向量到一组输出向量。MLP可以被看做是一个有向图,由多个节点层组成,每一层全连接到下一层。除了输入节点,每个节点都是一个带有非线性激活函数的神经元(或称处理单元)

3.3 负采样

本小结主要解决未标注实体的影响。

  1. 首先随机抽样一些未标注实体作为负实例:将所有的O标记的作为候选集合
    在这里插入图片描述

  2. 从候选集合里面随机采样一个集合,大小为 λ \lambda λ*n

  3. 然后计算交叉熵,负采样的交叉熵为什么相加呢,对于负采样的理解

在这里插入图片描述

  1. 计算得到不把漏标实体当做负样本的概率大于(1-2/(n-5))

4. Evaluation

数据集:分别在三个数据集上做了实验:人造数据集,真实数据集,标注完善数据集。

  • 标注完善数据集:conll2003、OneNotes5.0。本模型效果可以compared with SOTA

  • 人造数据集:在标注完善数据集上以一定的概率去掉一些标注。SOTA

  • 真实数据集:EC and NEWS,都存在着大量未标注实体。SOTA

参数设定:

5. Conclusion

6. Notes

  • 模型还是比较简单,可以更改为比较复杂的模型(强化学习,生成对抗网络啥的)

  • 结合负采样。负采样感觉也比较简单呢,也有改进的空间。

  • 对于片段排列,存在着文本序列过长,负样本过多的问题,如何解决?

  • 是否可以应用于NER垂直领域:医疗等

7. References

https://blog.csdn.net/qq_27590277/article/details/113287272

工业界落地:https://blog.csdn.net/xixiaoyaoww/article/details/107096739

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值