论文阅读:EMPIRICAL ANALYSIS OF UNLABELED ENTITY PROBLEM IN NAMED ENTITY RECOGNITION1
0. Summary
由于人工打标的昂贵性和远程监督学习打标的不完整性,NER目前存在未标注实体这一问题。未标注实体指的是本应该有确定标签的比如(British B-MISC),在有些数据集中却将这些实体作为负样本,也即看做(British O)。数据的缺失给NER带来了两方面的影响,第一就是标注实体的减少,这个可以通过采用预训练模型来解决(为什么呢),并不是问题的关键。第二个方面就是将未标注实体作为负样本给模型带来的误导。
本文主要解决第二个问题,利用负采样,将训练中未标注的实体保持在一个很低的概率。
1. Research Objective
-
未标注实体对于NER模型的影响
-
解决NER中数据漏标的问题。
2. Background and Problems
- 对于完整标注的数据集:LSTM-BERT
- 远程监督NER会造成数据漏标
- 对于不完整标注的数据集、多标签数据集:Fuzzy CRF and AutoNER、positive-unlabeled (PU) learning 、Partial CRF。
- 还是存在无法辨认真正的负样本、不能对相邻实体进行消歧(什么意思呢)
3. Method
3.1 验证未标注实体对模型的影响
在conll2003和OneNotes5.0上分别以0.0-0.9的概率随机移除一些标注好的实体的标签。然后分别使用BERT和LSTM两种模型,也即2×10×2组实验。
相较于一般的负对数似然函数的loss函数,本文移除了未标注实体对于模型的影响,因为这是构造的实验数据,所以移除的标签是是已知的,但是在现实的数据集中并不是已知的。loss函数如下所示:(感觉对于这里直接减去未标注的loss有点疑惑)
同时设计了两种评价指标来度量未标注实体给模型带来的影响。
首先是erosion rate
α
p
\alpha_p
αp,用以评价标注实体的减少对于模型的影响
α
p
=
f
0
a
−
f
p
a
f
0
a
\alpha_p=\frac{f^a_0-f^a_p}{f^a_0}
αp=f0af0a−fpa
第二个指标为misguidance rate
β
p
\beta_p
βp,代表未标注实体对当作负样本时、对NER指标下降的影响程度
β
p
=
f
0
a
−
f
p
f
p
a
\beta_p=\frac{f^a_0-f_p}{f^a_p}
βp=fpaf0a−fp
其中,
f
p
a
f^a_p
fpa是指在调整后(更改loss函数)的模型的表现(F1 score),
f
p
f_p
fp是指原模型的表现(F1),p是指随机去除标签的概率。
3.2 提出新的模型
摒弃传统的token标记方法,采用片段排列方式进行NER。对于含N个token的文本,理论上共有N(N+1)/2种片段排列。片段排列标注会出现大量的负样本。
-
首先用BERT或者LSTM进行编码,得到每个token的隐表示h
-
对于 x i , j x_{i,j} xi,j的 s i , j s_{i,j} si,j表示为(这个公式的来历有点疑惑,需要查询相关文献),先对两个向量进行级联,然后再对两个向量相减后进行级联,再对两个向量的点积进行级联:
- 经过MLP层输出最后的结果o:
MLP(Multi-Layer Perceptron)是一种前向结构的人工神经网络,映射一组输入向量到一组输出向量。MLP可以被看做是一个有向图,由多个节点层组成,每一层全连接到下一层。除了输入节点,每个节点都是一个带有非线性激活函数的神经元(或称处理单元)
3.3 负采样
本小结主要解决未标注实体的影响。
-
首先随机抽样一些未标注实体作为负实例:将所有的O标记的作为候选集合
-
从候选集合里面随机采样一个集合,大小为 λ \lambda λ*n
-
然后计算交叉熵,负采样的交叉熵为什么相加呢,对于负采样的理解:
- 计算得到不把漏标实体当做负样本的概率大于(1-2/(n-5))
4. Evaluation
数据集:分别在三个数据集上做了实验:人造数据集,真实数据集,标注完善数据集。
-
标注完善数据集:conll2003、OneNotes5.0。本模型效果可以compared with SOTA
-
人造数据集:在标注完善数据集上以一定的概率去掉一些标注。SOTA
-
真实数据集:EC and NEWS,都存在着大量未标注实体。SOTA
参数设定:
5. Conclusion
6. Notes
-
模型还是比较简单,可以更改为比较复杂的模型(强化学习,生成对抗网络啥的)
-
结合负采样。负采样感觉也比较简单呢,也有改进的空间。
-
对于片段排列,存在着文本序列过长,负样本过多的问题,如何解决?
-
是否可以应用于NER垂直领域:医疗等
7. References
https://blog.csdn.net/qq_27590277/article/details/113287272
工业界落地:https://blog.csdn.net/xixiaoyaoww/article/details/107096739