不平衡样本的处理方法---金融欺诈案例

本文探讨了二分类问题中不平衡数据集的挑战,特别是在癌症检测和金融欺诈等场景。介绍了欠采样、过采样及SMOTE等采样技术,以及为何传统的混淆矩阵和准确率不再适用,转而使用召回率、F1分数、ROC和AUC作为评价指标。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

对于二分类问题,理想的样本应该是50:50
但现实中某些场景就是非平衡数据,如癌症检测(癌症患者在人类总数中总是占非常小的比例),金融欺诈(一般来说大家都是守法尊则的良好公民,欺诈一般占小比例)
对于不平衡问题,一般将占比小的分类设为1,如欺诈和患癌症

(一)不平衡样本的处理方式:
(1)样本采样方面:
欠采样(减法)
过采样(加法)
SMOTE(类似与过采样,区别在于采用算法生成新的样本(一般是占比小的一类样本点),过采样是直接复制占比小的样本,使得最终样本50:50)

(2)评估方面:
单纯的混淆矩阵、准确度等指标不再适合,占比大的预测准确度肯定高,就好像黑箱中有20个球,其中黑球18个,白球2个,让你猜小明摸出来的球是黑色还是白色?只要一直猜黑球,准确率肯定高,但是有意义么?能反应什么问题么?

这时候召回率,F1score,ROC and AUC 更能反应模型性能

(二)可用工具包:
(1)采样方面:
imblearn 官方文档

不定期添加更新。。。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值