非均衡样本的简单认识

非均衡样本的定义

在分类问题中,每种类别的出现概率未必均衡。

比如 : 信用风险:正常用户远多于逾期/违约用户。

非平衡样本导致的问题:降低少类样本的灵敏性。

非均衡样本的解决办法:

1 过采样

考虑对小类下的样本(不足1为甚至更少)进行过采样,即添加部分样本的副本,这样做的缺点是过拟合。

2 欠采样

考虑对大类下的样本(超过1万、十万甚至更多)进行欠采样,即删除部分样本;
欠采样导致的问题是信息丢失严重。

3 SMOTE算法(合成少数过采样技术)

该算法的主要步骤如下:

  • 采样最邻近算法,计算出每个少数类样本的K个邻近。
  • 从K个近邻中随机挑选N个样本进行随机线性插值。
    随机 :为了防止过拟合
    线性:简单合成数据
  • 构造新的少数类样本
    N e w = x i + r a n d ( 0 , 1 ) ⋅ ( y j − x i ) , j = 1 , 2 , . . . , N New = x_i + rand(0,1) \cdot (y_j - x_i) , j = 1,2,...,N New=xi+rand(0,1)(yjxi),j=1,2,...,N
    其中,x_i 为少类样本的一个观测点,y_j为k进行中的随机抽取的样本
  • 将新样本与原数据合成,产生新的训练数据集。

示例 :
如果现在有一个违约样本 x (30,10000) ,分别表示(年龄,收入),现在在k临近中选取了一个样本y(40,15000),然后根据这两个样本进行新的样本生成:

假设rand为随机数为0.4 则 new_age = 30 + 0.4 * (40 - 30) = 34
new_income =10000 + 0.4(15000 - 10000) = 12000
从而合成的新样本为 : (34,12000)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值