网上关于np.transpose()的函数解释有很多,但没找到有对实际意义的解释。
我的理解是:在pytorch中张量tensor对图象的存储是(b,c,w,h)分别表示(图片数量,通道数,图片高,图片宽)。
单独说tensor中的某张图片,也就是(管道数,宽,高)。而标准的rbg图象是(宽,高,管道数)。
所以在pytorch中为了显示图象 需要通过np.transpose()对图象进行处理,例子:
在这里贴一段有关处理CIFAR10数据集的代码片,大家只需要关注输出时np.transpose()前后shape的对比就好。
import matplotlib.pyplot as plt
import numpy as np
# 输出图像的函数
def imshow(img):
img = img / 2 + 0.5 # unnormalize
npimg = img.numpy()
print("未转置,",npimg.shape)
print("转置后,",np.transpose(npimg, (1, 2, 0)).shape)
plt.imshow(np.transpose(npimg, (1, 2, 0)))
plt.show()
print(npimg[1])
# 随机获取训练图片
dataiter = iter(trainloader)
images, labels = dataiter.next()
# 显示图片
imshow(torchvision.utils.make_grid(images))
# 打印图片标签
print(' '.join('%5s' % classes[labels[j]] for j in range(4)))
结果:
如有错误,恳请指正!