类别不平衡就是指分类任务中不同类别的训练样例数目差别很大的情况。
解决的方法有三种:
1.直接对训练集里的反类样例进行“欠采样”
去除一些反例使得正、反例数目接近,然后再进行学习;
2.对训练集里的正类样例进行“过采样”
增加一些正例使得正、反例数目接近,然后再进行学习;
3.直接基于原始训练集进行学习,但在训练好的分类器进行预测时,采用“再缩放”的策略,
将预测概率乘上一个缩放因子,缩放因子为反例数与正例数之比。
类别不平衡就是指分类任务中不同类别的训练样例数目差别很大的情况。
解决的方法有三种:
1.直接对训练集里的反类样例进行“欠采样”
去除一些反例使得正、反例数目接近,然后再进行学习;
2.对训练集里的正类样例进行“过采样”
增加一些正例使得正、反例数目接近,然后再进行学习;
3.直接基于原始训练集进行学习,但在训练好的分类器进行预测时,采用“再缩放”的策略,
将预测概率乘上一个缩放因子,缩放因子为反例数与正例数之比。