算法优化-少数样本处理

在检测少数样本时,如果我们采用正常的分类评价指标,则会发现,即使少数类全部分错,也能达到一个很高的正确率。所以我们在这种情况下需要另外的策略保证少数类得到足够的重视

  1. 再抽样
    1.1 对多数类随机欠采样
    - 缺点:数据集没有完全被利用,而且有可能引入偏差
    弥补:
    集成学习:
    - EasyEnsemble: 并联方式,将多数类分成n组分别与少数类一起学习,然后综合结果
    - BlanceCascade: 串联方式。将多数类分成n组,取一组与少数类一起学习,然后将学习差的样本与下一组一起学习,迭代知道满足特定的条件
    1.2 对少数类随机过采样
    -缺点:容易过拟合
    弥补:smote方法,采用插值的方式填补,而不是直接复制
  2. 算法
    2.1 对类别错误施加惩罚,少数类分错给与更大的惩罚,即采用贝叶斯最小化平均风险,而不是最小化错误率
    2.1.1 代价矩阵
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值