如何处理类别不平衡问题

最新推荐文章于 2024-07-03 15:42:33 发布

HW_WY

最新推荐文章于 2024-07-03 15:42:33 发布

阅读量3.4k

点赞数 1

分类专栏：机器学习

机器学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

转自 https://zhuanlan.zhihu.com/p/32940093

三种方法：

对较多的那个类别进行欠采样(under-sampling)，舍弃一部分数据，使其与较少类别的数据相当
对较少的类别进行过采样(over-sampling)，重复使用一部分数据，使其与较多类别的数据相当
阈值调整（threshold moving），将原本默认为0.5的阈值调整到较少类别/（较少类别+较多类别）即可

当然很明显我们可以看出，第一种和第二种方法都会明显的改变数据分布，我们的训练数据假设不再是真实数据的无偏表述。在第一种方法中，我们浪费了很多数据。而第二类方法中有无中生有或者重复使用了数据，会导致过拟合的发生。

因此欠采样的逻辑中往往会结合集成学习来有效的使用数据，假设正例数据n，而反例数据m个。我们可以通过欠采样，随机无重复的生成（k=n/m）个反例子集，并将每个子集都与相同正例数据合并生成k个新的训练样本。我们在k个训练样本上分别训练一个分类器，最终将k个分类器的结果结合起来，比如求平均值。这就是一个简单的思路，也就是Easy Ensemble [5]。

但不难看出，其实这样的过程是需要花时间处理数据和编程的，对于很多知识和能力有限的人来说难度比较大。特此推荐两个简单易行且效果中上的做法：