在检测少数样本时,如果我们采用正常的分类评价指标,则会发现,即使少数类全部分错,也能达到一个很高的正确率。所以我们在这种情况下需要另外的策略保证少数类得到足够的重视
- 再抽样
1.1 对多数类随机欠采样
- 缺点:数据集没有完全被利用,而且有可能引入偏差
弥补:
集成学习:
- EasyEnsemble: 并联方式,将多数类分成n组分别与少数类一起学习,然后综合结果
- BlanceCascade: 串联方式。将多数类分成n组,取一组与少数类一起学习,然后将学习差的样本与下一组一起学习,迭代知道满足特定的条件
1.2 对少数类随机过采样
-缺点:容易过拟合
弥补:smote方法,采用插值的方式填补,而不是直接复制 - 算法
2.1 对类别错误施加惩罚,少数类分错给与更大的惩罚,即采用贝叶斯最小化平均风险,而不是最小化错误率
2.1.1 代价矩阵