关于类别不平衡（理解与解决方法）

最新推荐文章于 2023-04-14 12:34:02 发布

狂奔的菜鸡

最新推荐文章于 2023-04-14 12:34:02 发布

阅读量1.4k

点赞数

分类专栏：机器学习文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43786241/article/details/109159661

版权

机器学习专栏收录该内容

22 篇文章 7 订阅

订阅专栏

类别不平衡 (class-imbalance)：指分类任务中不同类别的训练样例数目差别很大的情况。

解决方式

再缩放（改变分类决策规则）

举个例子，在二分类中如果在类别平衡的情况下，假设预测为1的概率为p，则预测为0的概率为1-p，则： $\over 1-p}>1$ 时，类别为1，否则类别为0。若类别不平衡呢，假设数据集中，类别为1的数量为 $m^1$ ，类别为0的数目为 $m^0$ ， $m^1$ ！= $m^0$ ，观测概率为 $m^1 \over m^0$ ，只要分类器的预测几率高于观测几率就应判定为类别1：
$\over 1-p}$ > $m^1 \over m^0$
进行一个简单的调整，就变为求：
$\over 1-p'}$ = $\over 1-p}$ x $m^1 \over m^0$

欠采样

对较多类的数据样本进行采样来减少该类数据样本的个数，使其与其他类数目接近，然后再进行学习。
缺点：欠采样可能会丢失一些重要信息。
代表EasyEnsemble：利用集成学习机制，将反倒划分为若干个
集合供不同学习器使用，这样对每个学习器来看都进行了欠采样，但在全局来看却不会丢失重要信息。

过采样

对较少类的数据样本进行采样来增加小类的数据样本个数。
代表性算法SMOTE：通过对训练集里的正例进行插值来产生额外的正例。思路：对每个少数类样本a，从它的最近邻中随机选一个样本b，然后在a、b之间的连线上随机选一点作为新合成的少数类样本。

阈值移动

直接基于原始训练集进行学习，但在用训练好的分类器进行预测时，将 $\over 1-p'}$ = $\over 1-p}$ x $m^1 \over m^0$ 嵌入到其决策过程中。

狂奔的菜鸡

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

狂奔的菜鸡 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。