torchvision 包的介绍

最新推荐文章于 2024-05-04 11:15:00 发布

槑丫

最新推荐文章于 2024-05-04 11:15:00 发布

阅读量709

点赞数 2

分类专栏： pytorch 文章标签： python 机器学习

本文链接：https://blog.csdn.net/weixin_50670833/article/details/116092638

版权

pytorch 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

torchvision 是PyTorch中专门用来处理图像的库。这个包中有四个大类。

torchvision

1.torchvision.datasets
2.torchvision.models
3.torchvision.transforms
4.torchvision.utils
- make_grid
- torchvision.utils.save_image(img, imgPath)

1.torchvision.datasets

所有数据集都是 torch.utils.data.dataset 的子类，也就是说，它们都实现了 getitem 和 len 方法。因此，它们都可以传递给 torch.utils.data.dataloader，后者可以使用 torch.multiprocessing workers 并行加载多个样本。例如：

imagenet_data = torchvision.datasets.ImageFolder('path/to/imagenet_root/')
data_loader = torch.utils.data.DataLoader(imagenet_data,
                                          batch_size=4,
                                          shuffle=True,
                                          num_workers=args.nThreads)

torchvision.datasets 是用来进行数据加载的常见的数据集如下：
MNIST
Fashion-MNIST
KMNIST
EMNIST
FakeData
COCO
Captions
Detection
LSUN
ImageFolder
DatasetFolder
Imagenet-12
CIFAR
STL10
SVHN
PhotoTour
SBU
Flickr
VOC
Cityscapes
以上数据集分别是什么详见：数据集介绍

2.torchvision.models

torchvision.models 中为我们提供了已经训练好的模型，让我们可以加载之后，直接使用。
torchvision.models模块的子模块中包含以下模型结构。
AlexNet
VGG
ResNet
SqueezeNet
DenseNet
Inception v3
可以通过调用以下构造函数构造随机权重的模型：

import torchvision.models as models
resnet18 = models.resnet18()
alexnet = models.alexnet()
vgg16 = models.vgg16()
squeezenet = models.squeezenet1_0()
densenet = models.densenet161()
inception = models.inception_v3()

在torch.utils.model_zoo中提供了预训练模型。预训练模型可以通过传递参数pretrained=True构造：

import torchvision.models as models
resnet18 = models.resnet18(pretrained=True)
alexnet = models.alexnet(pretrained=True)
squeezenet = models.squeezenet1_0(pretrained=True)
vgg16 = models.vgg16(pretrained=True)
densenet = models.densenet161(pretrained=True)
inception = models.inception_v3(pretrained=True)

3.torchvision.transforms

变换是常见的图像变换。它们可以使用链接在一起Compose。此外，还有torchvision.transforms.functional模块。功能转换可以对转换进行细粒度控制。如果您必须构建更复杂的转换管道（例如，在分段任务的情况下），这将非常有用。

裁剪（Crop）

中心裁剪：transforms.CenterCrop
随机裁剪：transforms.RandomCrop
随机长宽比裁剪：transforms.RandomResizedCrop
上下左右中心裁剪：transforms.FiveCrop
上下左右中心裁剪后翻转，transforms.TenCrop

翻转和旋转（Flip and Rotation）

依概率p水平翻转：transforms.RandomHorizontalFlip(p=0.5)
依概率p垂直翻转：transforms.RandomVerticalFlip(p=0.5)
随机旋转：transforms.RandomRotation

图像变换（resize）transforms.Resize

标准化：transforms.Normalize
转为tensor，并归一化至[0-1]：transforms.ToTensor
填充：transforms.Pad
修改亮度、对比度和饱和度：transforms.ColorJitter
转灰度图：transforms.Grayscale
线性变换：transforms.LinearTransformation()
仿射变换：transforms.RandomAffine
依概率p转为灰度图：transforms.RandomGrayscale
将数据转换为PILImage：transforms.ToPILImage
将lambda应用作为变换：transforms.Lambda

对transforms操作，使数据增强更灵活

从给定的一系列transforms中选一个进行操作：transforms.RandomChoice(transforms)，
给一个transform加上概率，依概率进行操作：transforms.RandomApply(transforms, p=0.5)
将transforms中的操作随机打乱：transforms.RandomOrder
具体介绍详见：transforms操作

4.torchvision.utils

make_grid

torchvision.utils.make_grid(tensor, nrow=8, padding=2, normalize=False, range=None, scale_each=False, pad_value=0)

把图片排列成网格形状,其实就是将多张图片组合成一张图片。

参数：

tensor（Tensor 或 list）– 四维批（batch）Tensor或列表。如果是Tensor，其形状应是（B x C x H x W）；如果是列表，元素应为相同大小的图片。
nrow（int, 可选）– 最终展示的图片网格中每行摆放的图片数量。网格的长宽应该是（B / nrow, nrow）。默认是8。
padding（int, 可选）– 扩展填充的像素宽度。默认是2。
normalize（bool, 可选）– 如果设置为True，通过减去最小像素值然后除以最大像素值，把图片移到（0，1）的范围内。
range（tuple, 可选）– 元组（min, max），min和max用于对图片进行标准化处理。默认的，min和max由输入的张量计算得到。
scale_each（bool, 可选）– 如果设置为True，将批中的每张图片按照各自的最值分别缩放，否则使用当前批中所有图片的最值(min, max)进行统一缩放。
pad_value（float, 可选）– 扩展填充的像素值

torchvision.utils.save_image(img, imgPath)

深度学习模型中，一般使用如下方式进行图像保存(torchvision.utils中的save_image()函数），这种方式只能保存RGB彩色图像，如果网络的输出是单通道灰度图像，则该函数依然会输出三个通道，每个通道的数值都是相同的，即“伪灰度图像”，虽然从视觉效果上看不出区别，但是图像所占内存比正常情况大了两倍。
一般来说，需要将tensor转变为numpy类型的数组从而保存图片，这样的过程比较繁琐，Pytorch提供了save_image()函数，可直接将tensor保存为图片，若tensor在cuda上也会移到CPU中进行保存。

槑丫

关注

2
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
torchvision 包的介绍

torchvision 是PyTorch中专门用来处理图像的库。这个包中有四个大类。torchvision1.torchvision.datasets2.torchvision.models3.torchvision.transforms裁剪（Crop）翻转和旋转（Flip and Rotation）图像变换（resize）transforms.Resize对transforms操作，使数据增强更灵活4.torchvision.utilsmake_gridtorchvision.utils.save_im
复制链接

扫一扫

专栏目录