关于类别不平衡(理解与解决方法)

        类别不平衡 (class-imbalance):指分类任务中不同类别的训练样例数目差别很大的情况。


解决方式
再缩放(改变分类决策规则)

        举个例子,在二分类中如果在类别平衡的情况下,假设预测为1的概率为p,则预测为0的概率为1-p,则: p 1 − p > 1 {p \over 1-p}>1 1pp>1时,类别为1,否则类别为0。若类别不平衡呢,假设数据集中,类别为1的数量为 m 1 m^1 m1,类别为0的数目为 m 0 m^0 m0 m 1 m^1 m1!= m 0 m^0 m0,观测概率为 m 1 m 0 m^1 \over m^0 m0m1,只要分类器的预测几率高于观测几率就应判定为类别1:
                                                p 1 − p {p \over 1-p} 1pp> m 1 m 0 m^1 \over m^0 m0m1
        进行一个简单的调整,就变为求:
                                                p ′ 1 − p ′ {{p'} \over 1-p'} 1pp= p 1 − p {p \over 1-p} 1ppx m 1 m 0 m^1 \over m^0 m0m1

欠采样

        对较多类的数据样本进行采样来减少该类数据样本的个数,使其与其他类数目接近,然后再进行学习。
        缺点:欠采样可能会丢失一些重要信息。
        代表EasyEnsemble:利用集成学习机制,将反倒划分为若干个
集合供不同学习器使用,这样对每个学习器来看都进行了欠采样,但在全局来看却不会丢失重要信息。

过采样

        对较少类的数据样本进行采样来增加小类的数据样本个数。
        代表性算法SMOTE:通过对训练集里的正例进行插值来产生额外的正例。思路:对每个少数类样本a,从它的最近邻中随机选一个样本b,然后在a、b之间的连线上随机选一点作为新合成的少数类样本。

阈值移动

        直接基于原始训练集进行学习,但在用训练好的分类器进行预测时,将 p ′ 1 − p ′ {{p'} \over 1-p'} 1pp= p 1 − p {p \over 1-p} 1ppx m 1 m 0 m^1 \over m^0 m0m1嵌入到其决策过程中。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

狂奔的菜鸡

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值