1 基本概念:
样本不平衡(Imbalanced Data)是指在一个分类问题中,不同类别的样本数量差异很大,其中一些类别的样本数量明显少于其他类别。这种情况可能会导致机器学习模型偏向于预测样本数量多的类别,而对样本数量少的类别表现不佳。对于不平衡类别,我们不能得到实时的最优结果,因为模型/算法从来没有充分地考察隐含类。它对验证和测试样本的获取造成了⼀个问题,因为在⼀些类观测极少的情况下,很难在类中有代表性。
2 常见样本不平衡:
2. 1正类别和负类别不平衡: 在二分类问题中,正类别和负类别的样本数量差异较大。
- 解决方法:
- 重采样:增加正类别样本数量或减少负类别样本数量,可以通过过采样(增加正类别样本)或欠采样(减少负类别样本)来实现。
- 使用合适的评估指标:不要只依赖准确率。使用精确度、召回率、F1分数等更全面的指标来评估模型性能。
- 生成合成样本:使用生成对抗网络(GANs)等技术来生成合成的样本,以平衡类别。
2.2. 多类别不平衡: 在多类别分类问题中,某些类别的样本数量远远多于其他类别。
- 解决方法:
- 使用权重:调整损失函数中各个类别的权重,给予少见类别更大的权重。
- 一