pytorch下输入输出图像尺寸计算

最新推荐文章于 2024-07-25 08:48:54 发布

SHY_VWind

最新推荐文章于 2024-07-25 08:48:54 发布

阅读量7.8k

点赞数 1

分类专栏：项目实用技巧文章标签：人工智能 pytorch

本文链接：https://blog.csdn.net/yshtjdx/article/details/95935991

版权

项目实用技巧专栏收录该内容

17 篇文章 1 订阅

订阅专栏

1、https://blog.csdn.net/qq_21997625/article/details/87252780

https://blog.csdn.net/u012932178/article/details/80731735

https://blog.csdn.net/g11d111/article/details/82665265

https://blog.csdn.net/gaishi_hero/article/details/81512404

https://blog.csdn.net/u014665013/article/details/81978532

https://blog.csdn.net/alxe_made/article/details/80834305

k：卷积核尺寸；

x：输入图像尺寸(假设正方形)；

p：padding；

d：空洞率；

s：stride步长

y：输出图像尺寸；

因为d的存在，卷积核的尺寸相当于变成了k+(k-1)*(d-1)

y=ceil((x+2p-k-(k-1)*(d-1)+1)/s)

其中ceil表示求上界；

例如下面的卷积表示输入通道1024，输出通道256，核尺寸是3，padding是2，这里的padding指的是一个边的padding值，空洞率也是2，步长是1，因此输入尺寸x，输出尺寸y=ceil((x+2*2-3-2*1+1))/1,因此输出尺寸不变；

self.conv2 = nn.Conv2d(1024 256, kernel_size=3, stride=1, # change

padding=2, bias=False, dilation=2)

tensorflow中的padding有VALID和SAME，其中VALID表示padding是0，即不padding，对应p=0；

SAME表示输出和输入尺寸相等，不过是在stride=1的情况下；如果stride不等于1，y=ceil(x/stride),因此算出来p=(f-1)/2，d=1的情况下；

d=1的卷积就是正常的卷积；

2、https://blog.csdn.net/LemonTree_Summer/article/details/81433638

假设self.pad = nn.ReflectionPad2d(2)，则调用pad(x),x输出的尺寸就加上了2*2；

3、https://www.zhihu.com/question/282046628/answer/426193495

nn.AdaptiveAvgPool2d(output_size) ：举个简单的例子：输入的是(1,1, 3,3)大小的tensor，然后在 nn.AdaptiveAvgPool2d(2)的作用下，会成为一个2*2的tensor，首先要知道采用的是平均池化；

4、https://blog.csdn.net/qq_25964837/article/details/83652445

https://blog.csdn.net/CV_YOU/article/details/83212861

class torch.nn.ConvTranspose2d(in_channels, out_channels, kernel_size, stride=1, padding=0,output_padding=0, groups=1, bias=True, dilation=1)

反卷积后的图像输出尺寸的计算相等于正常卷积的x求y的反向；

不考虑d的情况下，反卷积的输出尺寸y=(x-1)*s+k-2p+outputpadding，有d也是把上面正常的卷积公式反向计算即可；

nn.ConvTranspose2d(256, 256, 4, 2, 1, bias=False)：表示输入输出通道256，卷积核4，步长2，padding是1；

输出尺寸y = (x-1)*2+4-2*1=2x;因此反卷积的输出尺寸扩大了一倍；

5、https://blog.csdn.net/weixin_36411839/article/details/82667754

根据尺寸的计算规则，resnet101的网络结构，可以算出conv1层(卷积+bn+relu+maxpooling)是4倍下采样，其中2倍是卷积，2倍是maxpooling；

self.conv1 = nn.Conv2d(3, 64, kernel_size=7, stride=2, padding=3,

bias=False)

self.maxpool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1, ceil_mode=True) # change

一个layers1是一个block，每个block里面是layers[i]层(res101是3，4，23，3)个bootleneck，每个bottleneck是3个卷积，加上最后的均值池化和fc，和之前的一个卷积层，正好101层；其中layers1的尺寸不变，layer2、3、4分别2倍下采样；

self.layer1 = self._make_layer(block, 64, layers[0])

self.layer2 = self._make_layer(block, 128, layers[1], stride=2)

self.layer3 = self._make_layer(block, 256, layers[2], stride=2)

self.layer4 = self._make_layer(block, 512, layers[3], stride=2)

6、https://blog.csdn.net/a132582/article/details/78658155

pytorch下可以通过print(x.size()):打印x这个tensor的尺寸；

7、总结一下：

对于标准的k*k卷积操作，stride为s，分三种情况：

(1) s>1，即卷积的同时做了downsampling，卷积后图像尺寸减小；

(2) s=1，普通的步长为1的卷积，比如在tensorflow中设置padding=SAME的话，卷积的图像输入和输出有相同的尺寸大小；

(3) 0<s<1，fractionally strided convolution，相当于对图像做upsampling。比如s=0.5时，意味着在图像每个像素之间padding一个空白的像素后，stride改为1做卷积，得到的feature map尺寸增大一倍。

而dilated conv不是在像素之间padding空白的像素，而是在已有的像素上，skip掉一些像素，或者输入不变，对conv的kernel参数中插一些0的weight，达到一次卷积看到的空间范围变大的目的。

当然将普通的卷积stride步长设为大于1，也会达到增加感受野的效果，但是stride大于1就会导致downsampling，图像尺寸变小

8、声明：上面的尺寸计算都已经通过实验验证了准确性；

SHY_VWind

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
2
评论
pytorch下输入输出图像尺寸计算

1、https://blog.csdn.net/qq_21997625/article/details/87252780https://blog.csdn.net/u012932178/article/details/80731735https://blog.csdn.net/g11d111/article/details/82665265https://blog.csdn.net/g...
复制链接

扫一扫

专栏目录