数据分布不均衡处理——SMOTE算法过采样Over sampling

数据分布不均衡处理——SMOTE算法过采样 O v e r s a m p l i n g Over\quad sampling Oversampling

什么是过采样?

过采样就是在原始数据分布不均衡时,使用算法,人工生成一部分数据出来,然后对这些新生成的数据随机采样,使得原始数据中少数集的数量最终和多数集的数量相同。如下图,可以看到类别为0的数据的数量远远多于类别为1的数据的数量。

在这里插入图片描述

SMOTE算法的基本思想

  • 对于少数类中的每一个样本 X X X,以欧氏距离为标准计算它到少数类样本集中所有的样本的距离,得到其 K K K近邻

  • 根据样本不平衡比例设置一个采样比例以确定采样倍率 N N N,对于每一个少数样本 X X X,从其 K K K近邻中随机选取若干样本,假设选择的近邻为 X n X_n Xn

  • 对于每一个随机选取的近邻 X n X_n Xn,分别与原样本按照如下的公式构建新的样本

    X n e w = X + r a n d ( 0 , 1 ) × ( X ~ − X ) \begin{aligned}X_{new} = X+ rand(0,1)\times(\tilde{X}-X)\end{aligned} Xnew=X+rand(0,1)×(X~X)

    实际上就是对每个少数类样本a,从它的最近邻中随机选一个样本b,然后在a、b之间的连线上随机选一点作为新合成的少数类样本。
    在这里插入图片描述

SMOTE算法的实现

请查看我的博文信用卡欺诈检测

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值