1、特征图减半:s=2,p=(k-1)/2 ? N = (W − K + 2P )/S+1
#1. Conv2d(kernel_size=(7, 7), stride=(2, 2), padding=(3, 3), bias=False)
#2. MaxPool2d(kernel_size=3, stride=2, padding=1, dilation=1)
2、特征图不变:
#1. Conv2d(kernel_size=(1, 1), stride=(1, 1), bias=False) # k = 1, s = 1, p = 0
#2. Conv2d(kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) # k = 3, s = 1, p = 1
3、保证k=stride,stride即上采样倍数
4、特征图大小:
1、https://blog.csdn.net/qq_21997625/article/details/87252780
https://blog.csdn.net/u012932178/article/details/80731735
https://blog.csdn.net/g11d111/article/details/82665265
https://blog.csdn.net/gaishi_hero/article/details/81512404
https://blog.csdn.net/u014665013/article/details/81978532
https://blog.csdn.net/alxe_made/article/details/80834305
k:卷积核尺寸;
x:输入图像尺寸(假设正方形);
p:padding;
d:空洞率;
s:stride步长
y:输出图像尺寸;
因为d的存在,卷积核的尺寸相当于变成了k+(k-1)*(d-1)
y=ceil((x+2p-k-(k-1)*(d-1)+1)/s)
其中ceil表示求上界;
例如下面的卷积表示输入通道1024,输出通道256,核尺寸是3,padding是2,这里的padding指的是一个边的padding值,空洞率也是2,步长是1,因此输入尺寸x,输出尺寸y=ceil((x+2*2-3-2*1+1))/1,因此输出尺寸不变;
self.conv2 = nn.Conv2d(1024 256, kernel_size=3, stride=1, # change
padding=2, bias=False, dilation=2)
tensorflow中的padding有VALID和SAME,其中VALID表示padding是0,即不padding,对应p=0;
SAME表示输出和输入尺寸相等,不过是在stride=1的情况下;如果stride不等于1,y=ceil(x/stride),因此算出来p=(f-1)/2,d=1的情况下;
d=1的卷积就是正常的卷积;
2、https://blog.csdn.net/LemonTree_Summer/article/details/81433638
假设self.pad = nn.ReflectionPad2d(2),则调用pad(x),x输出的尺寸就加上了2*2;
3、https://www.zhihu.com/question/282046628/answer/426193495
nn.AdaptiveAvgPool2d(output_size) :举个简单的例子:输入的是(1,1, 3,3)大小的tensor,然后在 nn.AdaptiveAvgPool2d(2)的作用下,会成为一个2*2的tensor,首先要知道采用的是平均池化;
4、https://blog.csdn.net/qq_25964837/article/details/83652445
https://blog.csdn.net/CV_YOU/article/details/83212861
class torch.nn.ConvTranspose2d(in_channels, out_channels, kernel_size, stride=1, padding=0,output_padding=0, groups=1, bias=True, dilation=1)
反卷积后的图像输出尺寸的计算相等于正常卷积的x求y的反向;
不考虑d的情况下,反卷积的输出尺寸y=(x-1)*s+k-2p+outputpadding,有d也是把上面正常的卷积公式反向计算即可;
nn.ConvTranspose2d(256, 256, 4, 2, 1, bias=False):表示输入输出通道256,卷积核4,步长2,padding是1;
输出尺寸y = (x-1)*2+4-2*1=2x;因此反卷积的输出尺寸扩大了一倍;
5、https://blog.csdn.net/weixin_36411839/article/details/82667754
根据尺寸的计算规则,resnet101的网络结构,可以算出conv1层(卷积+bn+relu+maxpooling)是4倍下采样,其中2倍是卷积,2倍是maxpooling;
self.conv1 = nn.Conv2d(3, 64, kernel_size=7, stride=2, padding=3,
bias=False)
self.maxpool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1, ceil_mode=True) # change
一个layers1是一个block,每个block里面是layers[i]层(res101是3,4,23,3)个bootleneck,每个bottleneck是3个卷积,加上最后的均值池化和fc,和之前的一个卷积层,正好101层;其中layers1的尺寸不变,layer2、3、4分别2倍下采样;
self.layer1 = self._make_layer(block, 64, layers[0])
self.layer2 = self._make_layer(block, 128, layers[1], stride=2)
self.layer3 = self._make_layer(block, 256, layers[2], stride=2)
self.layer4 = self._make_layer(block, 512, layers[3], stride=2)
6、https://blog.csdn.net/a132582/article/details/78658155
pytorch下可以通过print(x.size()):打印x这个tensor的尺寸;
7、总结一下:
对于标准的k*k卷积操作,stride为s,分三种情况:
(1) s>1,即卷积的同时做了downsampling,卷积后图像尺寸减小;
(2) s=1,普通的步长为1的卷积,比如在tensorflow中设置padding=SAME的话,卷积的图像输入和输出有相同的尺寸大小;
(3) 0<s<1,fractionally strided convolution,相当于对图像做upsampling。比如s=0.5时,意味着在图像每个像素之间padding一个空白的像素后,stride改为1做卷积,得到的feature map尺寸增大一倍。
而dilated conv不是在像素之间padding空白的像素,而是在已有的像素上,skip掉一些像素,或者输入不变,对conv的kernel参数中插一些0的weight,达到一次卷积看到的空间范围变大的目的。
当然将普通的卷积stride步长设为大于1,也会达到增加感受野的效果,但是stride大于1就会导致downsampling,图像尺寸变小