Pytorch中transforms的多种用法

本文对transforms.py中的各个预处理方法进行介绍和总结。主要从官方文档中总结而来,官方文档只是将方法陈列,没有归纳总结,顺序很乱,这里总结一共有四大类,方便大家索引:

裁剪——Crop
中心裁剪:transforms.CenterCrop
随机裁剪:transforms.RandomCrop
随机长宽比裁剪:transforms.RandomResizedCrop
上下左右中心裁剪:transforms.FiveCrop
上下左右中心裁剪后翻转,transforms.TenCrop

翻转和旋转——Flip and Rotation
依概率p水平翻转:transforms.RandomHorizontalFlip(p=0.5)
依概率p垂直翻转:transforms.RandomVerticalFlip(p=0.5)
随机旋转:transforms.RandomRotation

图像变换
resize:transforms.Resize
标准化:transforms.Normalize
转为tensor,并归一化至[0-1]:transforms.ToTensor
填充:transforms.Pad
修改亮度、对比度和饱和度:transforms.ColorJitter
转灰度图:transforms.Grayscale
线性变换:transforms.LinearTransformation()
仿射变换:transforms.RandomAffine
依概率p转为灰度图:transforms.RandomGrayscale
将数据转换为PILImage:transforms.ToPILImage
transforms.Lambda:Apply a user-defined lambda as a transform.

对transforms操作,使数据增强更灵活
transforms.RandomChoice(transforms), 从给定的一系列transforms中选一个进行操作
transforms.RandomApply(transforms, p=0.5),给一个transform加上概率,依概率进行操作
transforms.RandomOrder,将transforms中的操作随机打乱

一、 裁剪——Crop

1.随机裁剪:transforms.RandomCrop

class torchvision.transforms.RandomCrop(size, padding=None, pad_if_needed=False, fill=0, padding_mode=‘constant’)
功能:依据给定的size随机裁剪
参数:
size- (sequence or int),若为sequence,则为(h,w),若为int,则(size,size)
padding-(sequence or int, optional),此参数是设置填充多少个pixel。
当为int时,图像上下左右均填充int个,例如padding=4,则上下左右均填充4个pixel,若为3232,则会变成4040。
当为sequence时,若有2个数,则第一个数表示左右扩充多少,第二个数表示上下的。当有4个数时,则为左,上,右,下。
fill- (int or tuple) 填充的值是什么(仅当填充模式为constant时有用)。int时,各通道均填充该值,当长度为3的tuple时,表示RGB通道需要填充的值。
padding_mode- 填充模式,这里提供了4种填充模式,1.constant,常量。2.edge 按照图片边缘的像素值来填充。3.reflect,暂不了解。 4. symmetric,暂不了解。

2.中心裁剪:transforms.CenterCrop

class torchvision.transforms.CenterCrop(size)
功能:依据给定的size从中心裁剪
参数:
size- (sequence or int),若为sequence,则为(h,w),若为int,则(size,size)

3.随机长宽比裁剪 transforms.RandomResizedCrop

class torchvision.transforms.RandomResizedCrop(size, scale=(0.08, 1.0), ratio=(0.75, 1.3333333333333333), interpolation=2)
功能:随机大小,随机长宽比裁剪原始图片,最后将图片resize到设定好的size
参数:
size- 输出的分辨率
scale- 随机crop的大小区间,如scale=(0.08, 1.0),表示随机crop出来的图片会在的0.08倍至1倍之间。
ratio- 随机长宽比设置
interpolation- 插值的方法,默认为双线性插值(PIL.Image.BILINEAR)

4.上下左右中心裁剪:transforms.FiveCrop

class torchvision.transforms.FiveCrop(size)
功能:对图片进行上下左右以及中心裁剪,获得5张图片,返回一个4D-tensor
参数:
size- (sequence or int),若为sequence,则为(h,w),若为int,则(size,size)

5.上下左右中心裁剪后翻转: transforms.TenCrop

class torchvision.transforms.TenCrop(size, vertical_flip=False)
功能:对图片进行上下左右以及中心裁剪,然后全部翻转(水平或者垂直),获得10张图片,返回一个4D-tensor。
参数:
size- (sequence or int),若为sequence,则为(h,w),若为int,则(size,size)
vertical_flip (bool) - 是否垂直翻转,默认为flase,即默认为水平翻转

二、翻转和旋转——Flip and Rotation

6.依概率p水平翻转transforms.RandomHorizontalFlip

class torchvision.transforms.RandomHorizontalFlip(p=0.5)
功能:依据概率p对PIL图片进行水平翻转
参数:
p- 概率,默认值为0.5

7.依概率p垂直翻转transforms.RandomVerticalFlip

class torchvision.transforms.RandomVerticalFlip(p=0.5)
功能:依据概率p对PIL图片进行垂直翻转
参数:
p- 概率,默认值为0.5

8.随机旋转:transforms.RandomRotation

class torchvision.transforms.RandomRotation(degrees, resample=False, expand=False, center=None)
功能:依degrees随机旋转一定角度
参数:
degress- (sequence or float or int) ,若为单个数,如 30,则表示在(-30,+30)之间随机旋转
若为sequence,如(30,60),则表示在30-60度之间随机旋转
resample- 重采样方法选择,可选 PIL.Image.NEAREST, PIL.Image.BILINEAR, PIL.Image.BICUBIC,默认为最近邻
expand- 扩大图片保持信息
center- 可选为中心旋转还是左上角旋转

三、图像变换

9.resize:transforms.Resize

class torchvision.transforms.Resize(size, interpolation=2)
功能:重置图像分辨率
参数:
size- If size is an int, if height > width, then image will be rescaled to (size * height / width, size),所以建议size设定为h*w
interpolation- 插值方法选择,默认为PIL.Image.BILINEAR

10.标准化:transforms.Normalize

class torchvision.transforms.Normalize(mean, std)
功能:对数据按通道进行标准化,即先减均值,再除以标准差,注意是 hwc

11.转为tensor:transforms.ToTensor

class torchvision.transforms.ToTensor
功能:将PIL Image或者 ndarray 转换为tensor,并且归一化至[0-1]
注意事项:归一化至[0-1]是直接除以255,若自己的ndarray数据尺度有变化,则需要自行修改。

12.填充:transforms.Pad

class torchvision.transforms.Pad(padding, fill=0, padding_mode=‘constant’)
功能:对图像进行填充
参数:
padding-(sequence or int, optional),此参数是设置填充多少个pixel。
当为int时,图像上下左右均填充int个,例如padding=4,则上下左右均填充4个pixel,若为3232,则会变成4040。
当为sequence时,若有2个数,则第一个数表示左右扩充多少,第二个数表示上下的。当有4个数时,则为左,上,右,下。
fill- (int or tuple) 填充的值是什么(仅当填充模式为constant时有用)。int时,各通道均填充该值,当长度为3的tuple时,表示RGB通道需要填充的值。
padding_mode- 填充模式,这里提供了4种填充模式,1.constant,常量。2.edge 按照图片边缘的像素值来填充。3.reflect,? 4. symmetric,?

13.修改亮度、对比度和饱和度:transforms.ColorJitter

class torchvision.transforms.ColorJitter(brightness=0, contrast=0, saturation=0, hue=0)
功能:修改修改亮度、对比度和饱和度

14.转灰度图:transforms.Grayscale

class torchvision.transforms.Grayscale(num_output_channels=1)
功能:将图片转换为灰度图
参数:
num_output_channels- (int) ,当为1时,正常的灰度图,当为3时, 3 channel with r == g == b

15.线性变换:transforms.LinearTransformation()

class torchvision.transforms.LinearTransformation(transformation_matrix)
功能:对矩阵做线性变化,可用于白化处理! whitening: zero-center the data, compute the data covariance matrix
参数:
transformation_matrix (Tensor) – tensor [D x D], D = C x H x W

16.仿射变换:transforms.RandomAffine

class torchvision.transforms.RandomAffine(degrees, translate=None, scale=None, shear=None, resample=False, fillcolor=0)
功能:仿射变换

17.依概率p转为灰度图:transforms.RandomGrayscale

class torchvision.transforms.RandomGrayscale(p=0.1)
功能:依概率p将图片转换为灰度图,若通道数为3,则3 channel with r == g == b

18.将数据转换为PILImage:transforms.ToPILImage

class torchvision.transforms.ToPILImage(mode=None)
功能:将tensor 或者 ndarray的数据转换为 PIL Image 类型数据
参数:
mode- 为None时,为1通道, mode=3通道默认转换为RGB,4通道默认转换为RGBA

19.transforms.Lambda

Apply a user-defined lambda as a transform.
暂不了解,待补充。

四、对transforms操作,使数据增强更灵活
PyTorch不仅可设置对图片的操作,还可以对这些操作进行随机选择、组合

20.transforms.RandomChoice(transforms)

功能:从给定的一系列transforms中选一个进行操作,randomly picked from a list

21.transforms.RandomApply(transforms, p=0.5)

功能:给一个transform加上概率,以一定的概率执行该操作

22.transforms.RandomOrder

功能:将transforms中的操作顺序随机打乱

  • 0
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: PyTorchtransforms模块是用于数据预处理和数据增强的工具。它提供了一系列常用的数据变换方法,如随机裁剪、随机旋转、随机翻转、归一化等。transforms模块可以应用于图像、文本、音频等数据类型。 使用transforms模块,需要先将数据转换为torchvision的数据集格式,然后使用transforms.Compose()方法将多个数据变换方法组合起来,最后使用torch.utils.data.DataLoader()方法加载数据集。 例如,对于图像数据,可以使用以下代码进行数据预处理和数据增强: ``` import torchvision.transforms as transforms # 定义数据变换方法 transform = transforms.Compose([ transforms.RandomResizedCrop(224), # 随机裁剪 transforms.RandomHorizontalFlip(), # 随机翻转 transforms.ToTensor(), # 转换为张量 transforms.Normalize(mean=[.485, .456, .406], std=[.229, .224, .225]) # 归一化 ]) # 加载数据集 train_dataset = torchvision.datasets.ImageFolder(root='train/', transform=transform) train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=32, shuffle=True) ``` 以上代码,定义了一个数据变换方法transform,包括随机裁剪、随机翻转、转换为张量和归一化。然后使用ImageFolder方法加载数据集,并将transform作为参数传入。最后使用DataLoader方法加载数据集,设置batch_size和shuffle参数。 使用transforms模块可以方便地进行数据预处理和数据增强,提高模型的泛化能力和准确率。 ### 回答2: PyTorch深度学习领域的热门框架之一,而transforms则是PyTorch一个常用的数据预处理模块。transforms可以用来完成对数据的预处理、增广等操作,可以帮助我们改善模型训练的结果。本文将回答pytorchtransforms的用法。 一、transforms的介绍 在PyTorchtransforms位于torchvision.transforms模块,是对图像进行转换的一种预处理操作。transforms可以在图像被送入模型之前对其进行多种处理。通过transforms,我们可以对图像进行裁切、缩放、旋转、翻转等操作,还能进行图像亮度、色彩、对比度等操作。这些操作对于深度学习任务非常重要,它们可以减少网络的训练误差,加快训练速度,提高模型的鲁棒性和泛化性能。 二、transforms的使用 transforms的使用非常简单。我们只需要从torchvision.transforms模块导入需要的transforms类,然后将其作为参数传递给torchvision.datasets模块的数据加载函数。 例如,我们可以通过如下方式使用transforms完成图像的随机裁剪操作: ```Python from torchvision import transforms transform = transforms.Compose([ transforms.RandomCrop(224), transforms.ToTensor(), transforms.Normalize((0.485, 0.456, 0.406), (0.229, 0.224, 0.225)) ]) trainset = torchvision.datasets.ImageFolder(root='./data', transform=transform) ``` 在上面的代码,我们首先定义了一个transform对象。该对象包含三个操作:随机裁剪、将PIL图像转换为PyTorch的张量表示以及归一化处理。这些操作首先会被执行,并最终返回一个图像张量,该张量可以传递给模型进行训练。 三、transforms的常用操作 1. ToTensor 将PIL图像转换成PyTorch的Tensor格式。 2. Resize 将图像调整为指定的尺寸大小。 3. RandomCrop 随机裁剪给定大小的图像。 4. CenterCrop 从图像心裁剪给定大小的图像。 5. RandomRotation 随机旋转图像。 6. RandomHorizontalFlip 随机水平翻转图像。 7. RandomVerticalFlip 随机垂直翻转图像。 8. ColorJitter 对图像进行颜色抖动。 9. Normalize 对图像进行归一化处理。 10. RandomErasing 随机擦除图像给定大小的区域,用随机像素值代替。 总之,transforms是PyTorch一个强大的预处理工具,它可以帮助我们对图像进行多种操作,从而提高模型的训练效果。通过掌握transforms的用法与参数,我们可以更加方便地对原始数据进行处理和增广,以提高数据的多样性和模型的泛化性。 ### 回答3: PyTorch是一个深度学习框架,提供了许多可用的工具和库,使得数据处理和模型开发变得更为便捷。transforms模块就是其的一个工具,它主要用于对图像进行各种变换,如旋转、翻转、裁剪、缩放、标准化等,以便更好地预处理数据。 transforms模块最常用的方法就是Compose()方法,它能够将多个变换组合在一起形成一个变换pipeline,并按顺序依次执行每个变换。例如,我们想要将图像旋转45度、裁剪出心部分、缩放到指定大小并将像素值标准化,可以通过如下代码实现: ``` from torchvision import transforms transform = transforms.Compose([ transforms.RandomRotation(45), # 随机旋转45度 transforms.CenterCrop(224), # 裁剪出心224*224的部分 transforms.Resize(256), # 缩放到指定大小 transforms.ToTensor(), # 转换为张量 transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)) # 标准化像素值 ]) ``` 以上代码我们使用了RandomRotation、CenterCrop、Resize、ToTensor和Normalize这5个transforms方法。其,RandomRotation方法可以随机旋转图像一定角度,CenterCrop方法可以切出心部分,Resize方法可以根据设定大小进行缩放,ToTensor方法可以将图像转换为张量,Normalize方法可以标准化图像的像素值。 transforms模块还有其他很多的方法,包括随机翻转、调整亮度、对比度和饱和度等。使用它们可以根据需要对数据进行各种预处理,提高模型训练的效果。 需要注意的是,在使用transforms的过程,需要保证所有数据的预处理方式一致,否则可能会导致模型训练结果不稳定。同时,还可根据实际情况自定义transforms方法,以适应更复杂的预处理需求。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值