非均衡样本的简单认识

最新推荐文章于 2021-04-06 16:36:25 发布

两把伞

最新推荐文章于 2021-04-06 16:36:25 发布

阅读量690

点赞数

分类专栏：机器学习系列

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zuoyouzouzou/article/details/102727185

版权

机器学习系列专栏收录该内容

10 篇文章 0 订阅

订阅专栏

非均衡样本的定义

在分类问题中，每种类别的出现概率未必均衡。

比如：信用风险：正常用户远多于逾期/违约用户。

非平衡样本导致的问题：降低少类样本的灵敏性。

非均衡样本的解决办法：

1 过采样

考虑对小类下的样本（不足1为甚至更少）进行过采样，即添加部分样本的副本，这样做的缺点是过拟合。

2 欠采样

考虑对大类下的样本（超过1万、十万甚至更多）进行欠采样，即删除部分样本；
欠采样导致的问题是信息丢失严重。

3 SMOTE算法(合成少数过采样技术)

该算法的主要步骤如下：

采样最邻近算法，计算出每个少数类样本的K个邻近。
从K个近邻中随机挑选N个样本进行随机线性插值。
随机：为了防止过拟合
线性：简单合成数据
构造新的少数类样本
$x_i + rand(0,1) \cdot (y_j - x_i) , j = 1,2,...,N$
其中，x_i 为少类样本的一个观测点，y_j为k进行中的随机抽取的样本
将新样本与原数据合成，产生新的训练数据集。

示例：
如果现在有一个违约样本 x (30,10000) ，分别表示(年龄，收入)，现在在k临近中选取了一个样本y(40,15000)，然后根据这两个样本进行新的样本生成：

假设rand为随机数为0.4 则 new_age = 30 + 0.4 * (40 - 30) = 34
new_income =10000 + 0.4(15000 - 10000) = 12000
从而合成的新样本为： (34,12000)

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。