1 什么是类失衡?
•类失衡问题:数据集中各个类别的样本量极不均衡时,模型会往往表现出对少数类的偏见,极端情况下会直接忽略少数类
•问题预设:在分类问题中,存在某一类的样本数量远大于其他类的样本数量,在二分类情况下把两类样本的比例达到100:1的数据集称为不平衡数据。
•典型场景:疾病识别;违约预测
C0 的曲线总是在 C1 曲线之上,因此对于任意给定点,它出自 C0 类的概率总大于出自 C1 类的概率。用贝叶斯公式来表示:
即可将实际问题抽象为:
2 应对类失衡的方式
(1) 方法一 - 数据处理