非平衡数据的处理--SMOTE

在处理分类问题时,非平衡数据可能导致预测偏向多数类。SMOTE算法通过KNN找到少数类样本的近邻,进行随机线性插值生成新样本,平衡数据分布。本文介绍了SMOTE的基本思想和实施步骤。
摘要由CSDN通过智能技术生成

背景:实际应用中可能会遇到分类问题中类别之间的比例严重失调,如客户流失中,忠诚的占据很小比例;营销活动中,响应的客户只占小部分。如果数据存在严重的不平衡,预测得出的结论容易有偏,即返回的结果偏向于角度观测的类。

SMOTE的基本思想:对少数类别样本进行分析和模拟,并将人工模拟的新样本添加到数据集中。模拟过程采用了KNN,模拟生成新样本步骤如下:

  1. 采用KNN,计算出每个少数类样本的K个近邻
  2. 从K个近邻中随机挑选N个样本进行随机线性插值
  3. 构造新的少数类样本
  4. 将新样本与原数据结合,产生新的训练集

新样本点的构造公式如下,其中xi和xj均代表少数类别中的样本点。
在这里插入图片描述
可以使用SMOTE实现上述抽样

from imblearn.over_sampling import SMOTE
sm = SMOTE(random_state=1234
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值