SMOTE算法的思想是合成新的少数类样本,合成的策略是对每个少数类样本a,从它的最近邻中随机选一个样本b,然后在a、b之间的连线上随机选一点作为新合成的少数类样本。
如图所示:
算法流程:
1、对于少数类中每一个样本a,以欧氏距离为标准计算它到少数类样本集中所有样本的距离,得到其k近邻。
2、根据样本不平衡比例设置一个采样比例以确定采样倍率N,对于每一个少数类样本a,从其k近邻中随机选择若干个样本,假设选择的近邻为b。
3、对于每一个随机选出的近邻b,分别与原样本a按照如下的公式构建新的样本:c=a+rand(0,1)∗|a−b|
https://www.cnblogs.com/wqbin/p/11117616.html
https://www.jianshu.com/p/9a68934d1f56
https://zhuanlan.zhihu.com/p/44055312