样本非平衡问题

问题定义

正负样本比例为100:1 甚至1000:1,需要在分布如此不均匀的数据集中学习到有用信息。


危害:

造成分类器在多数类精度较高,少数类的分类精度很低。以最大分类精度为目标,导致算法提高多数样本分类精度而忽略小样本的预测精度。
原因:以逻辑回归为例,以优化总体精度为目标,不同类别的误分类情况产生的误差相同,考虑一个500:1的数据集的话传统学习算法在不平衡数据集中会有较大局限性。(因此可以通过加大少数样本权值的方式,权值可以取样本个数的倒数)


解决方案:

1、重构数据集:欠采样&过采样

1)欠采样:
a.随机欠采样。

从多数类中随机选择少量样本再合并原有少数类样本作为新的训练数据集。分为有放回和无放回两种。无放回欠采样在多数类被采样后不会再被重复采 样。
缺点:易丢失多数类的重要信息。

b.通过一定规则有选择的去掉对分类作用不大,即原理分类边界或者引起数据重叠的多数样本。(网页分类初过滤)
  • 5
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值