这里写目录标题
1. VGG网络结构
VGG16相比AlexNet的一个改进是采用连续的几个3x3的卷积核代替AlexNet中的较大卷积核(11x11,7x7,5x5)。对于给定的感受野(与输出有关的输入图片的局部大小),采用堆积的小卷积核是优于采用大的卷积核,因为多层非线性层可以增加网络深度来保证学习更复杂的模式,而且代价还比较小(参数更少)。
网络中的亮点:
通过堆叠多个3x3的卷积核来替代大尺度卷积核(减少所需参数)
论文中提到,可以通过堆叠两个3x3的卷积核替代5x5的卷积核,堆叠三个3x3的卷积核替代7x7的卷积核。
感受野的定义
在卷积神经网络中,感受野(Receptive Field)的定义是卷积神经网络每一层输出的特征图(feature map)上的像素点在输入图片上映射的区域大小。再通俗点的解释是,特征图上的一个点对应输入图上的区域,如图1所示。
对 堆叠两个3x3的卷积核替代5x5的卷积核,堆叠三个3x3的卷积核替代7x7的卷积核 的解读:
使用7x7卷积核所需参数,与堆叠三个3x3卷积核所需参数(假设输入输出channel为C)
7×7×CxC=49C2
3×3xC×C+3×3×CxC+3×3xCxC=27C2
下面是VGG网络的结构(VGG16和VGG19都在):
conv的stride为1,padding为1maxpool的size为2,stride为2
代码
代码点击这里下载