原文链接
SMOTE: Synthetic Minority Over-sampling Technique
解决的问题
很多算法都有一个默认的假设:样本中各个类别的样本数目是均衡的,比如深度学习中几个经典网络结构直接用于不均衡数据效果会很差。本文提出的SMOTE是一种通过线性插值过采样的方法解决不均衡问题的方法。如果通过简单复制样本没有获得期望结果时,不妨试试这个方法。
伪码
输入:同一类别的所有样本 { S } \{S\} {
S},聚类参数K,需要新增的样本个数N
输出:新增样本 { S n } \{S_n\} {
Sn}
步骤1:K均值聚类