数据增广 Data Augmentation 分类任务正则化方法增加训练数据集的数据量和多样性提升模型的泛化能力翻转变换随机修剪色彩抖动平移变换对比度变换

最新推荐文章于 2024-07-08 20:39:05 发布

EwenWanW

最新推荐文章于 2024-07-08 20:39:05 发布

阅读量1.4k

点赞数 46

文章标签：数据增广

本文链接：https://blog.csdn.net/xiaoxiaowenqiang/article/details/138504237

版权

数据增广是图像分类任务中的一种有效正则化方法，通过增加训练数据的多样性和数量，提高模型的泛化性能。常见的数据增广手段包括翻转变换、随机修剪、色彩抖动、平移变换等。本文详细介绍了AutoAugment、RandAugment、Cutout等八种数据增广策略，并探讨了它们在模型性能提升中的作用。

摘要由CSDN通过智能技术生成

数据增广

在图像分类任务中，数据增广（Data Augmentation）或数据增强是一种常用的正则化方法，旨在通过增加训练数据集的数据量和多样性来提升模型的泛化能力。特别是在数据量不足或模型参数较多的情况下，数据增广显得尤为重要。以下是对八种常用的数据增广方式的简单介绍：

翻转变换（Flip）：通过水平或垂直翻转图像来创建新的训练样本。这种方法在图像分类任务中非常常见，因为翻转后的图像通常仍然属于同一类别。
随机修剪（Random Crop）：从原始图像中随机裁剪出一个固定大小的区域作为新的训练样本。这种方法可以增加模型的鲁棒性，使模型能够适应不同大小和位置的物体。
色彩抖动（Color Jittering）：通过改变图像的亮度、对比度、饱和度和色调等色彩属性来创建新的训练样本。这种方法可以模拟真实世界中光照和颜色变化的情况，有助于提升模型的泛化能力。
平移变换（Shift）：将图像沿水平或垂直方向移动一定的距离来创建新的训练样本。这种方法可以模拟物体在图像中的位置变化，增加模型的鲁棒性。
尺度变换（Scale）：改变图像的大小来创建新的训练样本。这可以通过缩放图像来实现，有助于模型适应不同尺度的物体。
对比度变换（Contrast）：通过改变图像的对比度来创建新的训练样本。这可以模拟真实世界中光照强度的变化，提升模型的泛化能力。
噪声扰动（Noise）：在图像中添加随机噪声来创建新的训练样本。这可以模拟真实世界中图像采集过程中的噪声干扰，提升模型的鲁棒性。
旋转变换/反射变换（Rotation/Reflection）：通过旋转或反射图像来创建新的训练样本。这可以模拟物体在真实世界中的旋转和反射变化，增加模型的泛化能力。

这些增广方法可以根据具体的任务和数据集进行选择和组合，以达到最优的模型性能。需要注意的是，不同的增广方法可能会对模型的性能产生不同的影响，因此在实际应用中需要进行实验验证和调整。

方法概述

在图像分类任务中，图像数据的增广是一种常用的正则化方法，主要用于增加训练数据集，让数据集尽可能的多样化，使得训练的模型具有更强的泛化能力，常用于数据量不足或者模型参数较多的场景。除了 ImageNet 分类任务标准数据增广方法外，还有8种数据增广方式非常常用，这里对其进行简单的介绍和对比，大家也可以将这些增广方法应用到自己的任务中，以获得模型精度的提升。这8种数据增广方式在ImageNet上的精度指标如图1 所示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图1 8种数据增广方法

二、常用数据增广方法

注：如果没有特殊说明，本章节中所有示例为 ImageNet 分类，并且假设最终输入网络的数据维为：[batch-size, 3, 224, 224]

在ImageNet 分类任务中，训练阶段的标准数据增广方法为以下几步：

图像解码：简写为 ImageDecode
随机裁剪到长宽均为 224 的图像：简写为 RandCrop
水平方向随机翻转：简写为 RandFlip
图像数据的归一化：简写为 Normalize
图像数据的重排，[224, 224, 3] 变为 [3, 224, 224]：简写为 Transpose
多幅图像数据组成 batch 数据，如 batch-size 个 [3, 224, 224] 的图像数据拼组成 [batch-size, 3, 224, 224]：简写为 Batch