2、特征图

最新推荐文章于 2023-12-10 09:42:23 发布

席何文

最新推荐文章于 2023-12-10 09:42:23 发布

阅读量1.6k

点赞数

文章标签：深度学习

本文链接：https://blog.csdn.net/xihewen/article/details/106518373

版权

1、特征图减半：s=2，p=(k-1)/2 ？ N = (W − K + 2P )/S+1
#1. Conv2d(kernel_size=(7, 7), stride=(2, 2), padding=(3, 3), bias=False)
#2. MaxPool2d(kernel_size=3, stride=2, padding=1, dilation=1)
2、特征图不变：
#1. Conv2d(kernel_size=(1, 1), stride=(1, 1), bias=False) # k = 1, s = 1, p = 0
#2. Conv2d(kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) # k = 3, s = 1, p = 1
3、保证k=stride,stride即上采样倍数
4、特征图大小：
1、https://blog.csdn.net/qq_21997625/article/details/87252780

	https://blog.csdn.net/u012932178/article/details/80731735
	
	https://blog.csdn.net/g11d111/article/details/82665265
	
	https://blog.csdn.net/gaishi_hero/article/details/81512404
	
	https://blog.csdn.net/u014665013/article/details/81978532
	
	https://blog.csdn.net/alxe_made/article/details/80834305
	
	k：卷积核尺寸；
	
	x：输入图像尺寸(假设正方形)；
	
	p：padding；
	
	d：空洞率；
	
	s：stride步长
	
	y：输出图像尺寸；
	
	因为d的存在，卷积核的尺寸相当于变成了k+(k-1)*(d-1)
	
	y=ceil((x+2p-k-(k-1)*(d-1)+1)/s)
	
	其中ceil表示求上界；
	
	例如下面的卷积表示输入通道1024，输出通道256，核尺寸是3，padding是2，这里的padding指的是一个边的padding值，空洞率也是2，步长是1，因此输入尺寸x，输出尺寸y=ceil((x+2*2-3-2*1+1))/1,因此输出尺寸不变；
	
	self.conv2 = nn.Conv2d(1024 256, kernel_size=3, stride=1, # change
	
	padding=2, bias=False, dilation=2)
	
	tensorflow中的padding有VALID和SAME，其中VALID表示padding是0，即不padding，对应p=0；
	
	SAME表示输出和输入尺寸相等，不过是在stride=1的情况下；如果stride不等于1，y=ceil(x/stride),因此算出来p=(f-1)/2，d=1的情况下；
	
	d=1的卷积就是正常的卷积；
	
	2、https://blog.csdn.net/LemonTree_Summer/article/details/81433638
	
	假设self.pad = nn.ReflectionPad2d(2)，则调用pad(x),x输出的尺寸就加上了2*2；
	
	3、https://www.zhihu.com/question/282046628/answer/426193495
	
	nn.AdaptiveAvgPool2d(output_size) ：举个简单的例子：输入的是(1,1, 3,3)大小的tensor，然后在 nn.AdaptiveAvgPool2d(2)的作用下，会成为一个2*2的tensor，首先要知道采用的是平均池化；
	
	4、https://blog.csdn.net/qq_25964837/article/details/83652445
	
	https://blog.csdn.net/CV_YOU/article/details/83212861
	
	class torch.nn.ConvTranspose2d(in_channels, out_channels, kernel_size, stride=1, padding=0,output_padding=0, groups=1, bias=True, dilation=1)
	
	反卷积后的图像输出尺寸的计算相等于正常卷积的x求y的反向；
	
	不考虑d的情况下，反卷积的输出尺寸y=(x-1)*s+k-2p+outputpadding，有d也是把上面正常的卷积公式反向计算即可；
	
	nn.ConvTranspose2d(256, 256, 4, 2, 1, bias=False)：表示输入输出通道256，卷积核4，步长2，padding是1；
	
	输出尺寸y = (x-1)*2+4-2*1=2x;因此反卷积的输出尺寸扩大了一倍；
	
	5、https://blog.csdn.net/weixin_36411839/article/details/82667754
	
	根据尺寸的计算规则，resnet101的网络结构，可以算出conv1层(卷积+bn+relu+maxpooling)是4倍下采样，其中2倍是卷积，2倍是maxpooling；
	
	self.conv1 = nn.Conv2d(3, 64, kernel_size=7, stride=2, padding=3,
	
	bias=False)
	
	self.maxpool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1, ceil_mode=True) # change
	
	一个layers1是一个block，每个block里面是layers[i]层(res101是3，4，23，3)个bootleneck，每个bottleneck是3个卷积，加上最后的均值池化和fc，和之前的一个卷积层，正好101层；其中layers1的尺寸不变，layer2、3、4分别2倍下采样；
	
	self.layer1 = self._make_layer(block, 64, layers[0])
	
	self.layer2 = self._make_layer(block, 128, layers[1], stride=2)
	
	self.layer3 = self._make_layer(block, 256, layers[2], stride=2)
	
	self.layer4 = self._make_layer(block, 512, layers[3], stride=2)
	
	6、https://blog.csdn.net/a132582/article/details/78658155
	
	pytorch下可以通过print(x.size()):打印x这个tensor的尺寸；
	
	7、总结一下：
	
	对于标准的k*k卷积操作，stride为s，分三种情况：
	
	(1) s>1，即卷积的同时做了downsampling，卷积后图像尺寸减小；
	
	(2) s=1，普通的步长为1的卷积，比如在tensorflow中设置padding=SAME的话，卷积的图像输入和输出有相同的尺寸大小；
	
	(3) 0<s<1，fractionally strided convolution，相当于对图像做upsampling。比如s=0.5时，意味着在图像每个像素之间padding一个空白的像素后，stride改为1做卷积，得到的feature map尺寸增大一倍。
	
	而dilated conv不是在像素之间padding空白的像素，而是在已有的像素上，skip掉一些像素，或者输入不变，对conv的kernel参数中插一些0的weight，达到一次卷积看到的空间范围变大的目的。
	
	当然将普通的卷积stride步长设为大于1，也会达到增加感受野的效果，但是stride大于1就会导致downsampling，图像尺寸变小

席何文

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2、特征图

1、特征图减半：s=2，p=(k-1)/2 ？#1. Conv2d(kernel_size=(7, 7), stride=(2, 2), padding=(3, 3), bias=False)#2. MaxPool2d(kernel_size=3, stride=2, padding=1, dilation=1)2、特征图不变：#1. Conv2d(kernel_size=(1, 1), stride=(1, 1), bias=False) # k = 1, s = 1, p = 0
复制链接

扫一扫