不平衡样本的处理方法---金融欺诈案例

对于二分类问题,理想的样本应该是50:50
但现实中某些场景就是非平衡数据,如癌症检测(癌症患者在人类总数中总是占非常小的比例),金融欺诈(一般来说大家都是守法尊则的良好公民,欺诈一般占小比例)
对于不平衡问题,一般将占比小的分类设为1,如欺诈和患癌症

(一)不平衡样本的处理方式:
(1)样本采样方面:
欠采样(减法)
过采样(加法)
SMOTE(类似与过采样,区别在于采用算法生成新的样本(一般是占比小的一类样本点),过采样是直接复制占比小的样本,使得最终样本50:50)

(2)评估方面:
单纯的混淆矩阵、准确度等指标不再适合,占比大的预测准确度肯定高,就好像黑箱中有20个球,其中黑球18个,白球2个,让你猜小明摸出来的球是黑色还是白色?只要一直猜黑球,准确率肯定高,但是有意义么?能反应什么问题么?

这时候召回率,F1score,ROC and AUC 更能反应模型性能

(二)可用工具包:
(1)采样方面:
imblearn 官方文档

不定期添加更新。。。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值