CNN感受野、VGG16
1.CNN感受野
在卷积神经网络中,决定某一层输出结果中一个元素所对应的输入层的区域大小,被称作感受野(receptive filed)。简单地说就是输出feature maps上的一个单元对应于输入层上的区域大小。
卷积的计算公式如下:
O
u
t
p
u
t
s
i
z
e
=
⌊
(
I
n
p
u
t
s
i
z
e
−
K
e
r
n
e
l
s
i
z
e
+
2
∗
P
a
d
d
i
n
g
)
/
s
t
r
i
d
e
⌋
+
1
Output_{size} = \lfloor(Input_{size} - Kernel_{size} + 2*Padding)/stride\rfloor + 1
Outputsize=⌊(Inputsize−Kernelsize+2∗Padding)/stride⌋+1
下面以一个输入为9*9的例子简单说明,如下图:
- F(i)为第i层的感受野;
- Ksize为卷积核或池化核的尺寸;
- stride为第i层的步距;
则结合感受野的计算公式来计算上述中的例子:
Feature map: F = 1
Pool1: F = (1 - 1) * 2 + 2 = 2
Conv1: F = (2 - 1) * 2 + 3 = 5
vgg论文中提到,可以通过堆叠两个3x3的卷积核替代5x5的卷积核,堆叠三个3x3的卷积核替代7x7的卷积核。
Feature map: F = 1
Conv3x3(3): F = (1 - 1) * 1 + 3 = 3
Conv3x3(2): F = (3 - 1) * 1 + 3 = 5 (两个3x3的卷积核替代5*5的卷积核)
Conv3x3(1): F = (5 - 1) * 1 + 3 = 7 (三个3x3的卷积核替代7x7的卷积核)
使用7x7卷积核所需要的参数,与堆叠三个3x3的卷积核所需要的参数(假设输入和输出channel都为C)
7
×
7
×
C
×
C
=
49
C
2
3
×
3
×
C
×
C
+
3
×
3
×
C
×
C
+
3
×
3
×
C
×
C
=
27
C
2
7 \times 7\times C \times C = 49C^{2} \\ 3 \times 3\times C \times C + 3 \times 3\times C \times C + 3 \times 3\times C \times C = 27C^{2}
7×7×C×C=49C23×3×C×C+3×3×C×C+3×3×C×C=27C2
2.VGG16
其实vgg系列包含vgg11、13、16、19,这里我们以常用的vgg16作为例子。
vgg16比较规整,不计算后面的全连接层可以分为5个stage, 每个stage的feature maps都会高宽减半,而通道数都会增加一倍(注意到512时就不会再增加一倍了),可以看出,经过5个stage之后,输出的feature maps的宽高为输出图像的1/32。
注意:为什么下图中的ConvNet Configration中的D命名为vgg16呢?
因为前5个stage有13个卷积层,之后又3个全连接层,因此为16层。(注意:像maxpool没有权重的层是不计算在内的)
另外:
- 卷积层(conv)的stride为1,padding为1
- 池化层(maxpool)的size为2, stride也为2
(下面计算参数的图片来源于FeiFei Li在CS231的课件)
上图给出了整个网络的全部参数的计算过程(不考虑偏置)
图中红色是计算所需存储容量的部分,蓝色是计算权重参数数量的部分。