【小笔记】NLP序列标注问题，样本不均衡怎么解决？

落叶阳光

已于 2023-09-09 20:10:08 修改

阅读量1.5k

点赞数 2

分类专栏：算法篇文章标签：自然语言处理知识图谱

于 2023-08-17 08:40:11 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiangxiang613/article/details/132332569

版权

算法篇专栏收录该内容

48 篇文章

订阅专栏

【学而不思则罔，思而不学则殆】

1.问题

NLP序列标注问题，样本不均衡怎么解决？
在这里插入图片描述

2.解释

以命名实体识别（NER）为例，这个样本不均衡有两种解释：
（1）实体间类别数量不均衡，比如医疗知识图谱中，疾病现象比治疗手段多得多；
（2）实体和非实体的数量不均衡，一句话中，标注为O的数量占比比较大，约60%-90%。
第一类问题会导致实体类别分类不准，也就是会影响P（查准率）；第二类问题会导致实体可能识别不出来，会影响R（查全率）

3.思路

针对第一类问题：
传统的几个思路
（1）思路一：增加小样本数量，首先考虑增加原始样本数量，其次考虑数据增强（如滑动窗口），属于简单有效的方法；
（2）思路二：在不影响性能的情况下，可以考虑减少样本数量多的类别样本，这种也能平衡类别数量，还能加快训练；
（3）思路三：改变损失函数，本质是给小样本加权，比如用focal loss。
（4）思路四：用两个或多个分类模型，一个用来识别大样本类别，一个用来识别小样本类别；极端情况下，一种类别一个分类算法，好处是每种类别的性能可以针对性调优，坏处是模型太多，训练和预测更耗时。
就像问题中的图大样本和小样本比较极端，就可以考虑用两个分类模型。

针对第二类问题：
（1）思路一：剔除掉纯O的句子
（1）思路二：减少一句话中O的数量
如：

建立原句的语法分析树，只取需要的部分。

参考：
知乎中有类似的问题：
https://www.zhihu.com/question/340333687

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。