过采样、欠采样

最新推荐文章于 2024-05-26 22:40:47 发布

weixin_44646187

最新推荐文章于 2024-05-26 22:40:47 发布

阅读量6.7k

点赞数 10

分类专栏：图表示学习文章标签：机器学习 python 算法

本文链接：https://blog.csdn.net/weixin_44646187/article/details/127100662

版权

图表示学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1.过采样和欠采样

建立模型的时候，可能会遇到正负样本比例极度不均衡的情况。例如：建立信用违约模型时，违约样本的比例远小于不违约样本的比例，此时模型会花更多精力去你和不违约样本，但实际上找出违约样本更重要，这会导致模型可能在训练集上表现良好，但测试时表现不佳，为了改善样本比例不均衡的问题，可以使用过采样和欠采样的方法，假设现在有100个违约样本和1000个不违约样本。

1.1过采样

1.过采样原理
过采样有随机过采样和SMOTE法过采样
（1）随即过采样：随即过采样时从100个违约样本中随机抽取旧样本作为一个新样本，假设反腐抽取900次，然后和原来的100个旧样本组合成新的1000个违约样本，和1000个不违约样本一起构成新的训练集。因为随机采样重复的取了违约样本，所以有可能造成对违约样本的过拟合。
（2）SMOTE法过采样：SMOTE法过采样即合成少数类过采样技术，它是一种针对随机过采样容易导致过拟合问题的改进方案，假设对少数类进行4倍过采样，步骤如下：
a.根据样本不同，分为数据较多和数据较少两类。
b.随机选取少数类中的一个样本点。
c.找到离该样本点最近的四个样本点。
d.在选中的样本点和最近的四个样本点分别连成的4条线段上随机选取4个点生成新的样本点，之后重复上述步骤，直到少数类的样本数达到目标为止。
2.欠采样
欠采样原理：欠采样和过采样相反，是从1000个不违约的样本中随机选取100个样本，和100个违约样本一起训练构成新的训练集。欠采样因为抛弃了大部分的不违约样本，所以在搭建模型的时候可能会产生欠拟合。

在实战中处理不均衡问题时，如果样本数据不大，可以使用过采样，因为这样能更好地利用数据，不会像欠采样那样有很多数据都没有使用到；如果数据量充足，则过采样和欠采样都可以考虑使用。

参考链接：
数据预处理之过采样和欠采样

weixin_44646187

关注

10
点赞
踩
40

收藏

觉得还不错? 一键收藏
1
评论
过采样、欠采样

例如：建立信用违约模型时，违约样本的比例远小于不违约样本的比例，此时模型会花更多精力去你和不违约样本，但实际上找出违约样本更重要，这会导致模型可能在训练集上表现良好，但测试时表现不佳，为了改善样本比例不均衡的问题，可以使用过采样和欠采样的方法，假设现在有100个违约样本和1000个不违约样本。（1）随即过采样：随即过采样时从100个违约样本中随机抽取旧样本作为一个新样本，假设反腐抽取900次，然后和原来的100个旧样本组合成新的1000个违约样本，和1000个不违约样本一起构成新的训练集。
复制链接

扫一扫