非均衡样本的定义
在分类问题中,每种类别的出现概率未必均衡。
比如 : 信用风险:正常用户远多于逾期/违约用户。
非平衡样本导致的问题:降低少类样本的灵敏性。
非均衡样本的解决办法:
1 过采样
考虑对小类下的样本(不足1为甚至更少)进行过采样,即添加部分样本的副本,这样做的缺点是过拟合。
2 欠采样
考虑对大类下的样本(超过1万、十万甚至更多)进行欠采样,即删除部分样本;
欠采样导致的问题是信息丢失严重。
3 SMOTE算法(合成少数过采样技术)
该算法的主要步骤如下:
- 采样最邻近算法,计算出每个少数类样本的K个邻近。
- 从K个近邻中随机挑选N个样本进行随机线性插值。
随机 :为了防止过拟合
线性:简单合成数据
- 构造新的少数类样本
N e w = x i + r a n d ( 0 , 1 ) ⋅ ( y j − x i ) , j = 1 , 2 , . . . , N New = x_i + rand(0,1) \cdot (y_j - x_i) , j = 1,2,...,N New=xi+rand(0,1)⋅(yj−xi),j=1,2,...,N
其中,x_i 为少类样本的一个观测点,y_j为k进行中的随机抽取的样本 - 将新样本与原数据合成,产生新的训练数据集。
示例 :
如果现在有一个违约样本 x (30,10000) ,分别表示(年龄,收入),现在在k临近中选取了一个样本y(40,15000),然后根据这两个样本进行新的样本生成:
假设rand为随机数为0.4 则 new_age = 30 + 0.4 * (40 - 30) = 34
new_income =10000 + 0.4(15000 - 10000) = 12000
从而合成的新样本为 : (34,12000)