【PyTorch】torchvision.transforms.ToPILImage 与图像分辨率

最新推荐文章于 2024-09-06 10:56:46 发布

Anova.YJ

最新推荐文章于 2024-09-06 10:56:46 发布

阅读量8.9k

点赞数 11

分类专栏： PyTorch 文章标签： pytorch

本文链接：https://blog.csdn.net/weixin_44246009/article/details/119774323

版权

PyTorch 专栏收录该内容

30 篇文章

订阅专栏

在 $\rm torchvision.transforms.ToPILImage$ 的官方描述中，它可以将以 $[c, h, w]$ 形式组织的 $\rm Tensor$ 和以 $[h, w, c]$ 形式组织的 $\rm numpy~ndarray$ 转换为 $\rm PIL.Image.$
但平时我们提到的图片分辨率，如 $1920\times1080$ ，是 $w\times h$ 的形式。通常深度学习中会将图片大小统一，例如常见的 $256\times256$ ，但如果遇到长宽不相同的图片，需要注意 $\rm ToPILImage$ 函数中的要求与日常使用是有区别的。

在这里插入图片描述

torchvision.transforms.ToPILImage(mode=None)

Converts a torch.*Tensor of shape C x H x W or 
a numpy ndarray of shape H x W x C to a PIL Image 
while preserving the value range.

我们在《交换图片通道》中说过 $\rm PIL.Image.open()$ 函数加载图片是以 $\rm RGB$ 通道加载的，并且图片尺寸为 $w\times h$ ，展示如下：

# In[]
from PIL import Image

im = Image.open(r'./content.jpg')
print(im.mode)
print(im.size)

'''
RGB
(960, 540)
'''

该图片如下所示，很显然是 $w\times h$ ：
在进行 $\rm torchvision.transforms.ToTensor$ 转换后，会将图片组织成我们开篇所说的 $[c, h, w]$ 张量形式，代码如下：

# In[]
import torchvision
tensor = torchvision.transforms.ToTensor()(im)
print(tensor.shape)

'''
torch.Size([3, 540, 960])
'''

最后是关于 $\rm matplotlib.pyplot.imshow()$ 方法可视化时对于图片的要求，对于使用 $\rm PIL.Image.open()$ 方法读入的 $\rm Image$ 类型， $\rm imshow$ 是能够直接进行显示的：

# In[]
import matplotlib.pyplot as plt
plt.imshow(im)

在这里插入图片描述

但对于转换为 $[c, h, w]$ 形式的张量，则需要对其进行维度的交换，否则会报如下错误：

TypeError: Invalid shape (3, 540, 960) for image data

正确的可视化代码如下：

# In[]
tensor = tensor.permute(1,2,0)
plt.imshow(tensor)

其中 $\rm permute()$ 函数能够实现张量维度的交换，将 $[c, h, w]$ 重新组织为 $[h, w, c]$ 形式，用于可视化展示。另一种方式就是使用开篇时介绍的 $\rm ToPILImage$ 方法对张量进行变换：

# In[]
tensor = torchvision.transforms.ToPILImage()(tensor)
plt.imshow(tensor)

上述两种方法均能成功可视化张量形式的图片。