ML - 下采样&过采样

最新推荐文章于 2023-08-18 15:37:52 发布

小田_

最新推荐文章于 2023-08-18 15:37:52 发布

阅读量373

点赞数

分类专栏： ML 机器学习

本文链接：https://blog.csdn.net/weixin_45390999/article/details/115417054

版权

ML 机器学习专栏收录该内容

14 篇文章 0 订阅

订阅专栏

文章目录

使用场景

在样本不均衡的情况下，模型可能会一边倒。
比如，30w个正样本，500 个负样本。

因此提出两种解决方案：

下采样 Down Sampling
只从正样本中随机抽取 500个；
比例均衡了，但是只利用了一小部分数据。
过采样，Over Sampling
对数据进行变换，制造负样本（数据生成）。
策略：SMOTE算法

SMOTE 数据生成策略

在这里插入图片描述

对于少数类的每一个样本x，以欧式距离为标准。计算它到少数类样本级中所有样本的距离，经过排序，得到其邻近样本。
根据样本不平衡比例，设置采样倍率N。对于每一个少数样本x，从其近邻开始依次选择N个样本。
对于每一个选出的近邻样本，分别与原样本按照如下的公式，构建新的样本数据。
取 0–1 中的一个随机小数作为比例，加在原始数据上，得到新的样本。

$x_{new} = x + rand(0,1) * (\tilde{x} - x)$

可以使用 imblearn 来实现这个算法。

imblearn

安装

pip install imblearn

使用

from imblearn.over_sampling import SMOTE

oversampler = SMOTE(random_state=0)

os_features, os_labels = oversampler.fit_sample(features_train, labels_train)

小田_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ML - 下采样&过采样

文章目录使用场景SMOTE 数据生成策略imblearn安装使用使用场景在样本不均衡的情况下，模型可能会一边倒。比如，30w个正样本，500 个负样本。因此提出两种解决方案：下采样 Down Sampling只从正样本中随机抽取 500个；比例均衡了，但是只利用了一小部分数据。过采样，Over Sampling对数据进行变换，制造负样本（数据生成）。策略：SMOTE算法SMOTE 数据生成策略对于少数类的每一个样本x，以欧式距离为标准。计算它到少数类样本级中所有样本的距
复制链接

扫一扫

专栏目录