VGG特点总结

最新推荐文章于 2025-04-30 15:02:41 发布

涌恒

最新推荐文章于 2025-04-30 15:02:41 发布

阅读量1.6w

点赞数 9

文章标签：深度学习

VGG

最近学习深度学习后想通过学习一些神经网络模型来巩固理解，于是就选择了在人脸识别等图像分类领域用的较多的VGG模型。
简单介绍：
VGGNet是牛津大学计算机视觉组和DeepMind公司共同研发的一种深度卷积网络，并且在2014年在ILSVRC大赛上获得了分类项目的第二名和定位项目的第一名，VGGNet一共有六种不同的网络结构，但每种结构都含有5组卷积，每组卷积都使用33的卷积核，步长为1，‘0’填充，每组卷积后进行一个22最大池化，步长为2，接下来是三个全连接层。
每个网络的输入都为224224的RGB图像，对输入图像做的预处理是将图像的每个像素减去RGB的均值
网络的几种配置：

结构图：

特点：
网络深，卷积核小，池化核小（与AlexNet的33池化核相比，VGG全部用的是22的池化层）
全连接转卷积。（网络测试阶段将训练阶段的三个全连接替换为三个卷积（1个conv7x7，2个conv1x1），测试重用训练时的参数，使得测试得到的全卷积网络因为没有全连接的限制，因而可以接收任意宽和高的输入。）

优点：
（1）层数深使得特征图更宽，更加适合于大的数据集，该网络可以解决1000类图像分类和定位问题。
（2）卷积核的大小影响到了参数量，感受野，前者关系到训练的难易以及是否方便部署到移动端等，后者关系到参数的更新、特征图的大小、特征是否提取的足够多、模型的复杂程度。
（VGG用较深的网络结构和较小的卷积核既可以保证感受视野，又能够减少卷积层的参数，比如两个33的卷积层叠加等价于一个55卷积核的效果，3个33卷积核叠加相加相当于一个77的卷积核，而且参数更少。大约是77卷积层的（333）/（77）=0.55，三个卷积层的叠加，对特征学习能力更强）
（3）池化层：从AlexNet的kernel size为33，stride为2的max-pooling改变为kernel size均为22，stride为2的max-pooling，小的池化核能够带来更细节的信息捕获（当时也有average pooling，但是在图像任务上max-pooling的效果更好，max更加容易捕捉图像上的变化，带来更大的局部信息差异性，更好的描述边缘纹理等，用average-pooling可能会使得图像模糊了，类似与数字图像处理的高斯模糊）
其他特点：
全连接层：特征图的高度从512后开始进入到全连接层，也就是说全连接层前是77512维度的特征图（大概为25000），这个全连接层过程要将25000映射到4096,（大约将原来的信息压缩成原来的五分之一），有可能是这个压缩过程太急于是又接了一个fc4096作为缓冲。
使用11卷积核：选用卷积核的最直接原因是在维度上继承全连接，在这里可以增加决策函数的非线性能力（？）
1*1卷积的特点：
（1）不考虑单通道上像素的局部信息，专注于一个卷积核内部通道的信息整合；
（2）对feature map降维或者升维，例如224x224x100的图像（或feature map）经过20个conv1x1的卷积核，得到224x224x20的feature map。尤其当卷积核（即filter）数量达到上百个时，3x3或5x5卷积的计算会非常耗时，所以1x1卷积在3x3或5x5卷积计算前先降低feature map的维度。