pytorch下输入输出图像尺寸计算

1、https://blog.csdn.net/qq_21997625/article/details/87252780

https://blog.csdn.net/u012932178/article/details/80731735

https://blog.csdn.net/g11d111/article/details/82665265

https://blog.csdn.net/gaishi_hero/article/details/81512404

https://blog.csdn.net/u014665013/article/details/81978532

https://blog.csdn.net/alxe_made/article/details/80834305

k:卷积核尺寸;

x:输入图像尺寸(假设正方形);

p:padding;

d:空洞率;

s:stride步长

y:输出图像尺寸;

因为d的存在,卷积核的尺寸相当于变成了k+(k-1)*(d-1)

y=ceil((x+2p-k-(k-1)*(d-1)+1)/s)

其中ceil表示求上界;

例如下面的卷积表示输入通道1024,输出通道256,核尺寸是3,padding是2,这里的padding指的是一个边的padding值,空洞率也是2,步长是1,因此输入尺寸x,输出尺寸y=ceil((x+2*2-3-2*1+1))/1,因此输出尺寸不变;

self.conv2 = nn.Conv2d(1024 256, kernel_size=3, stride=1, # change

padding=2, bias=False, dilation=2)

tensorflow中的padding有VALID和SAME,其中VALID表示padding是0,即不padding,对应p=0;

SAME表示输出和输入尺寸相等,不过是在stride=1的情况下;如果stride不等于1,y=ceil(x/stride),因此算出来p=(f-1)/2,d=1的情况下;

d=1的卷积就是正常的卷积;

2、https://blog.csdn.net/LemonTree_Summer/article/details/81433638

假设self.pad = nn.ReflectionPad2d(2),则调用pad(x),x输出的尺寸就加上了2*2;

3、https://www.zhihu.com/question/282046628/answer/426193495

nn.AdaptiveAvgPool2d(output_size) :举个简单的例子:输入的是(1,1, 3,3)大小的tensor,然后在 nn.AdaptiveAvgPool2d(2)的作用下,会成为一个2*2的tensor,首先要知道采用的是平均池化;

4、https://blog.csdn.net/qq_25964837/article/details/83652445

https://blog.csdn.net/CV_YOU/article/details/83212861

class torch.nn.ConvTranspose2d(in_channels, out_channels, kernel_size, stride=1, padding=0,output_padding=0, groups=1, bias=True, dilation=1)

反卷积后的图像输出尺寸的计算相等于正常卷积的x求y的反向;

不考虑d的情况下,反卷积的输出尺寸y=(x-1)*s+k-2p+outputpadding,有d也是把上面正常的卷积公式反向计算即可;

nn.ConvTranspose2d(256, 256, 4, 2, 1, bias=False):表示输入输出通道256,卷积核4,步长2,padding是1;

输出尺寸y = (x-1)*2+4-2*1=2x;因此反卷积的输出尺寸扩大了一倍;

5、https://blog.csdn.net/weixin_36411839/article/details/82667754

根据尺寸的计算规则,resnet101的网络结构,可以算出conv1层(卷积+bn+relu+maxpooling)是4倍下采样,其中2倍是卷积,2倍是maxpooling;

self.conv1 = nn.Conv2d(3, 64, kernel_size=7, stride=2, padding=3,

bias=False)

self.maxpool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1, ceil_mode=True) # change

一个layers1是一个block,每个block里面是layers[i]层(res101是3,4,23,3)个bootleneck,每个bottleneck是3个卷积,加上最后的均值池化和fc,和之前的一个卷积层,正好101层;其中layers1的尺寸不变,layer2、3、4分别2倍下采样;

self.layer1 = self._make_layer(block, 64, layers[0])

self.layer2 = self._make_layer(block, 128, layers[1], stride=2)

self.layer3 = self._make_layer(block, 256, layers[2], stride=2)

self.layer4 = self._make_layer(block, 512, layers[3], stride=2)

6、https://blog.csdn.net/a132582/article/details/78658155

pytorch下可以通过print(x.size()):打印x这个tensor的尺寸;

7、总结一下:

对于标准的k*k卷积操作,stride为s,分三种情况:

(1) s>1,即卷积的同时做了downsampling,卷积后图像尺寸减小;

(2) s=1,普通的步长为1的卷积,比如在tensorflow中设置padding=SAME的话,卷积的图像输入和输出有相同的尺寸大小;

(3) 0<s<1,fractionally strided convolution,相当于对图像做upsampling。比如s=0.5时,意味着在图像每个像素之间padding一个空白的像素后,stride改为1做卷积,得到的feature map尺寸增大一倍。

而dilated conv不是在像素之间padding空白的像素,而是在已有的像素上,skip掉一些像素,或者输入不变,对conv的kernel参数中插一些0的weight,达到一次卷积看到的空间范围变大的目的。

当然将普通的卷积stride步长设为大于1,也会达到增加感受野的效果,但是stride大于1就会导致downsampling,图像尺寸变小

8、声明:上面的尺寸计算都已经通过实验验证了准确性;

 

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值