过采样、欠采样

1.过采样和欠采样

建立模型的时候,可能会遇到正负样本比例极度不均衡的情况。例如:建立信用违约模型时,违约样本的比例远小于不违约样本的比例,此时模型会花更多精力去你和不违约样本,但实际上找出违约样本更重要,这会导致模型可能在训练集上表现良好,但测试时表现不佳,为了改善样本比例不均衡的问题,可以使用过采样和欠采样的方法,假设现在有100个违约样本和1000个不违约样本。

1.1过采样

1.过采样原理
过采样有随机过采样和SMOTE法过采样
(1)随即过采样:随即过采样时从100个违约样本中随机抽取旧样本作为一个新样本,假设反腐抽取900次,然后和原来的100个旧样本组合成新的1000个违约样本,和1000个不违约样本一起构成新的训练集。因为随机采样重复的取了违约样本,所以有可能造成对违约样本的过拟合。
(2)SMOTE法过采样:SMOTE法过采样即合成少数类过采样技术,它是一种针对随机过采样容易导致过拟合问题的改进方案,假设对少数类进行4倍过采样,步骤如下:
a.根据样本不同,分为数据较多和数据较少两类。
b.随机选取少数类中的一个样本点。
c.找到离该样本点最近的四个样本点。
d.在选中的样本点和最近的四个样本点分别连成的4条线段上随机选取4个点生成新的样本点,之后重复上述步骤,直到少数类的样本数达到目标为止。
2.欠采样
欠采样原理:欠采样和过采样相反,是从1000个不违约的样本中随机选取100个样本,和100个违约样本一起训练构成新的训练集。欠采样因为抛弃了大部分的不违约样本,所以在搭建模型的时候可能会产生欠拟合。

在实战中处理不均衡问题时,如果样本数据不大,可以使用过采样,因为这样能更好地利用数据,不会像欠采样那样有很多数据都没有使用到;如果数据量充足,则过采样和欠采样都可以考虑使用。

参考链接:
数据预处理之过采样和欠采样

  • 10
    点赞
  • 40
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值