线性分类器中的不均衡问题
目标:尽可能找出红色点
数据是可分的时候
数据比例是1:9
我们先采用相等的权重,得到的分类平面为:
调整权重:
向上采样(这里的向上采样是直接复制少数样本)得到的分类平面和直接调整权重是一样的:
向下采样:
不可分数据:
如果已经是不可分的了,此时还需要使用线性分类器,那就需要自己再结合应用找新的特征,使得样本的映射到线性可分的空间;
一点小结论:
如果可以,但是我想说好的原因有以下两点:
1:数据量减少了,比较适合调整参数,容易进行模型调优;
2:应用中,不平衡数据中数据的相似度本身就高,通过采样,还是能够保留整体的一个数据特性,当然,也需要控制一下比例,没有必要达到平衡,也不建议达到平衡。