论文阅读：EMPIRICAL ANALYSIS OF UNLABELED ENTITY PROBLEM IN NAMED ENTITY RECOGNITION

最新推荐文章于 2021-10-29 12:58:31 发布

风与海的半神

最新推荐文章于 2021-10-29 12:58:31 发布

阅读量1.4k

点赞数

本文链接：https://blog.csdn.net/weixin_43972097/article/details/114489873

版权

该研究关注命名实体识别（NER）任务中未标注实体带来的影响。由于数据标注的不完全性和成本，未标注实体可能被错误地当作负样本，导致模型性能下降。论文提出了一种新模型，通过片段排列方式处理NER，并采用负采样策略减少未标注实体的负面影响。实验在多个数据集上展示了这种方法的有效性，为改善NER模型处理未标注实体提供了新思路。

摘要由CSDN通过智能技术生成

论文阅读：EMPIRICAL ANALYSIS OF UNLABELED ENTITY PROBLEM IN NAMED ENTITY RECOGNITION1

0. Summary

由于人工打标的昂贵性和远程监督学习打标的不完整性，NER目前存在未标注实体这一问题。未标注实体指的是本应该有确定标签的比如（British B-MISC），在有些数据集中却将这些实体作为负样本，也即看做（British O）。数据的缺失给NER带来了两方面的影响，第一就是标注实体的减少，这个可以通过采用预训练模型来解决（为什么呢），并不是问题的关键。第二个方面就是将未标注实体作为负样本给模型带来的误导。

本文主要解决第二个问题，利用负采样，将训练中未标注的实体保持在一个很低的概率。

1. Research Objective

未标注实体对于NER模型的影响
解决NER中数据漏标的问题。

2. Background and Problems

对于完整标注的数据集：LSTM-BERT
远程监督NER会造成数据漏标
对于不完整标注的数据集、多标签数据集：Fuzzy CRF and AutoNER、positive-unlabeled (PU) learning 、Partial CRF。
还是存在无法辨认真正的负样本、不能对相邻实体进行消歧（什么意思呢）

3. Method

3.1 验证未标注实体对模型的影响

在conll2003和OneNotes5.0上分别以0.0-0.9的概率随机移除一些标注好的实体的标签。然后分别使用BERT和LSTM两种模型，也即2×10×2组实验。

相较于一般的负对数似然函数的loss函数，本文移除了未标注实体对于模型的影响，因为这是构造的实验数据，所以移除的标签是是已知的，但是在现实的数据集中并不是已知的。loss函数如下所示：（感觉对于这里直接减去未标注的loss有点疑惑）

在这里插入图片描述

同时设计了两种评价指标来度量未标注实体给模型带来的影响。

首先是erosion rate $\alpha_p$ ，用以评价标注实体的减少对于模型的影响
$\alpha_p=\frac{f^a_0-f^a_p}{f^a_0}$

第二个指标为misguidance rate $\beta_p$ ,代表未标注实体对当作负样本时、对NER指标下降的影响程度
$\beta_p=\frac{f^a_0-f_p}{f^a_p}$
其中， $f^a_p$ 是指在调整后（更改loss函数）的模型的表现（F1 score）， $f_p$ 是指原模型的表现（F1），p是指随机去除标签的概率。

3.2 提出新的模型

在这里插入图片描述

摒弃传统的token标记方法，采用片段排列方式进行NER。对于含N个token的文本，理论上共有N（N+1）/2种片段排列。片段排列标注会出现大量的负样本。

首先用BERT或者LSTM进行编码，得到每个token的隐表示h
对于 $x_{i,j}$ 的 $s_{i,j}$ 表示为（这个公式的来历有点疑惑，需要查询相关文献），先对两个向量进行级联，然后再对两个向量相减后进行级联，再对两个向量的点积进行级联：

在这里插入图片描述

经过MLP层输出最后的结果o：

在这里插入图片描述

MLP（Multi-Layer Perceptron）是一种前向结构的人工神经网络，映射一组输入向量到一组输出向量。MLP可以被看做是一个有向图，由多个节点层组成，每一层全连接到下一层。除了输入节点，每个节点都是一个带有非线性激活函数的神经元（或称处理单元）

3.3 负采样

本小结主要解决未标注实体的影响。

首先随机抽样一些未标注实体作为负实例：将所有的O标记的作为候选集合
从候选集合里面随机采样一个集合，大小为 $\lambda$ *n
然后计算交叉熵，负采样的交叉熵为什么相加呢，对于负采样的理解：

在这里插入图片描述

计算得到不把漏标实体当做负样本的概率大于（1-2/（n-5））

4. Evaluation

数据集：分别在三个数据集上做了实验：人造数据集，真实数据集，标注完善数据集。

标注完善数据集：conll2003、OneNotes5.0。本模型效果可以compared with SOTA
人造数据集：在标注完善数据集上以一定的概率去掉一些标注。SOTA
真实数据集：EC and NEWS，都存在着大量未标注实体。SOTA

参数设定：

5. Conclusion

6. Notes

模型还是比较简单，可以更改为比较复杂的模型（强化学习，生成对抗网络啥的）
结合负采样。负采样感觉也比较简单呢，也有改进的空间。
对于片段排列，存在着文本序列过长，负样本过多的问题，如何解决？
是否可以应用于NER垂直领域：医疗等

7. References

https://blog.csdn.net/qq_27590277/article/details/113287272

工业界落地：https://blog.csdn.net/xixiaoyaoww/article/details/107096739

风与海的半神

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
论文阅读：EMPIRICAL ANALYSIS OF UNLABELED ENTITY PROBLEM IN NAMED ENTITY RECOGNITION

论文阅读：EMPIRICAL ANALYSIS OF UNLABELED ENTITY PROBLEM IN NAMED ENTITY RECOGNITION10. Summary由于人工打标的昂贵性和远程监督学习打标的不完整性，NER目前存在未标注实体这一问题。未标注实体指的是本应该有确定标签的比如（British B-MISC），在有些数据集中却将这些实体作为负样本，也即看做（British O）。数据的缺失给NER带来了两方面的影响，第一就是标注实体的减少，这个可以通过采用与训练模型来解决（为什么
复制链接

扫一扫