解决数据不均衡的问题

最新推荐文章于 2021-11-13 09:59:33 发布

coding-coder

最新推荐文章于 2021-11-13 09:59:33 发布

阅读量652

点赞数

本文链接：https://blog.csdn.net/woyuanzuonideyikeya/article/details/81664096

版权

1、类别不均衡会对分类性能产生有害的影响。
2、随着任务规模的扩大，类别不均衡性对分类性能的影响越大。
3、类别不均衡的影响不能简单地以训练样本数量的不足来解释，它依赖于各类样本的分布。

过采样（oversampling，相当于插值），下采样（downsampling，相当于压缩），两阶段训练（two-phase training），以及阈值化（threholding），阈值化可以补偿先验的类别概率。
解决类别不均衡问题的方法可以被分为两大类。第一大类是数据层面的方法，这类方法对训练数据进行处理，改变它的类别分布。这类方法的目标就是朝着使标准训练算法能够起作用的目标去改变数据集。另一大类则包括分类器（算法）层面的。这些方法保持训练数据集不变，仅仅调整训练（或者推理）算法。另外，结合这两类的方法也是可以使用的。在这一部分我们会概述常常被使用的这两类方法，既包含在经典机器学习模型，也包括在深度神经网络中使用的。

1、将多类 ROC AUC 作为评价指标时，在绝大多数情况下表现最优异的方法是过采样。
2、对于极端不均衡比率，以及大部分类别都是少数样本的情况，下采样比过采样具有更好的效果。
3、为了实现最佳准确率，应该使用阈值化方法来补偿先验类别概率。最可取的方法是阈值化方法和过采样的结合，然而不应该将阈值化方法和下采样方法结合。
4、过采样方法应该应用在需要完全消除不均衡性的情况，而下采样则更适合于仅需要从一定程度上消除不均衡性的情况。
5、与一些经典机器学习方法不同的是，过采样并不一定会在卷积神经网络中导致过拟合。