机器学习之欠采样和过采样

最新推荐文章于 2024-08-21 20:54:16 发布

过境�

最新推荐文章于 2024-08-21 20:54:16 发布

阅读量4.5k

点赞数

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44896001/article/details/109248483

版权

过采样和欠采样是解决分类问题中数据不平衡的有效策略。过采样通过重复少数类样本，欠采样则减少多数类样本。SMOTE算法结合二者，通过生成新的少数类样本来平衡数据集。该方法利用KNN技术模拟创建新样本，改善模型性能。

摘要由CSDN通过智能技术生成

机器学习之欠采样和过采样

过采样和欠采样是处理非平衡分类问题时的常用手段。

拿二元分类为例，如果训练集中阳性样本有1000个，阴性样本有10万个，两者比例为1：100严重失衡。为了一些模型的性能考虑，我们需要进行一些处理使得两者的比例尽可能接近。

过采样：对少的一类进行重复选择，比如我们对1000个阳性样本进行有放回的抽样，抽5万次（当然其中有很多重复的样本），现在两类的比例就变成了1：2，比较平衡。

欠采样：对多的一类进行少量随机选择，比如我们对10万个阴性样本进行随机选择，抽中2000个（当然原样本中很多样本未被选中），现在两类的比例就变成了1：2，比较平衡。

SMOTE：SMOTE算法的基本思想就是对少数类别样本进行分析和模拟，并将人工模拟的新样本添加到数据集中，进而使原始数据中的类别不再严重失衡。该算法的模拟过程采用了KNN技术。

关于SMOTE：
https://blog.csdn.net/weixin_36431280/article/details/82560988

关注

0
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。