不平衡数据-SMOTE综述【SMOTE合成采样系列】
引言
在机器学习中,使用常用算法进行分类时,如:逻辑回归、决策树、支持向量机、随机森林等,都假设数据集是平衡的,即:不同类别的数据在数量和质量上都是同等的。
然而,真实世界中大多数数据并不满足该要求,如:银行信用系统中,不守信用的客户是少数;又如:疾病诊断系统中,诊断为阳性的也是少数。倘若直接使用不平衡数据集并使用常用算法构建模型进行分类,结果是不理想的。
因此,解决不平衡数据带来的分类问题成了机器学习中的热点问题。
其常用解决方法大致可以分为三类:
(1)特征选择法;
(2)数据分布调整;
(3)模型训.
原创
2021-08-23 13:43:04 ·
3018 阅读 ·
0 评论