计算机视觉与机器学习等领域不平衡数据处理综述

最新推荐文章于 2023-08-28 10:27:30 发布

woshicver

最新推荐文章于 2023-08-28 10:27:30 发布

阅读量560

点赞数 1

文章标签：机器学习人工智能深度学习计算机视觉 python

本文链接：https://blog.csdn.net/woshicver/article/details/115475245

版权

本文介绍了处理不平衡数据的方法，包括机器学习中的上采样、下采样，计算机视觉中的数据增强，以及NLP中的类权重调整等。针对不平衡数据集，文章提出使用SMOTE、Tomek Links、图像数据增强和翻译技术来改善模型预测性能。

摘要由CSDN通过智能技术生成

简介

在现实世界中，我们收集的数据在大多数时候是严重不平衡的，所谓不平衡数据集就是训练样本不是平均分布在目标类中，例如，如果我们以个人贷款分类问题为例，就很容易得到“未批准”的数据，而不是“已批准”的信息，结果，模型会更偏向具有大量训练实例的类，这降低了模型的预测能力。

在典型的二元分类问题中，它还会II型错误的增加。这一障碍不仅局限于机器学习模型，而且也主要存在于计算机视觉和自然语言处理领域。这些问题可以通过对每个区域分别使用不同的技术来有效地处理。

注意:本文将简要概述各种可用的数据增强方法，但不深入技术细节，这里展示的所有图像都来自Kaggle。

上采样是将合成生成的数据点(对应于少数类)注入数据集的过程，在这个过程之后，两个标签的计数几乎是相同的，这种均衡过程防止了模型向多数类倾斜，而且目标类之间的交互(边界)保持不变，同时，上采样机制由于附加信息的存在而给系统带来偏差。

我们可以通过分析Google Analytics的贷款预测问题来解释这些步骤。这里使用的训练数据集可以在以下链接中找到。

https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/

下面提到的所有代码都可以在GitHub存储库中找到。

https://github.com/NandhiniN85/Class-Imbalancing

SMOTE(SyntheticMinorityOversamplingTechnique)——upsampling: 上采样

SMOTE基于knearestneighbors算法，综合生成数据点，这些数据点位于已经存在的数量被超过的群体附近。应用此方法时，输入记录不应包含任何空值。

#import imblearn library
from imblearn.over_sampling import SMOTENC
oversample = SMOTENC(categorical_features=[0,1,2,3,4,9,10], random_state = 100)
X, y = oversample.fit_resample(X, y)

最低0.47元/天解锁文章

woshicver

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

计算机视觉与机器学习等领域不平衡数据处理综述

目录

1. 机器学习——不平衡数据