VGG特点总结

VGG

最近学习深度学习后想通过学习一些神经网络模型来巩固理解,于是就选择了在人脸识别等图像分类领域用的较多的VGG模型。
简单介绍:
VGGNet是牛津大学计算机视觉组和DeepMind公司共同研发的一种深度卷积网络,并且在2014年在ILSVRC大赛上获得了分类项目的第二名和定位项目的第一名,VGGNet一共有六种不同的网络结构,但每种结构都含有5组卷积,每组卷积都使用33的卷积核,步长为1,‘0’填充,每组卷积后进行一个22最大池化,步长为2,接下来是三个全连接层。
每个网络的输入都为224224的RGB图像,对输入图像做的预处理是将图像的每个像素减去RGB的均值
网络的几种配置:
在这里插入图片描述
结构图:
在这里插入图片描述
特点:
网络深,卷积核小,池化核小(与AlexNet的3
3池化核相比,VGG全部用的是22的池化层)
全连接转卷积。(网络测试阶段将训练阶段的三个全连接替换为三个卷积(1个conv7x7,2个conv1x1),测试重用训练时的参数,使得测试得到的全卷积网络因为没有全连接的限制,因而可以接收任意宽和高的输入。)
在这里插入图片描述
优点:
(1)层数深使得特征图更宽,更加适合于大的数据集,该网络可以解决1000类图像分类和定位问题。
(2)卷积核的大小影响到了参数量,感受野,前者关系到训练的难易以及是否方便部署到移动端等,后者关系到参数的更新、特征图的大小、特征是否提取的足够多、模型的复杂程度。
(VGG用较深的网络结构和较小的卷积核既可以保证感受视野,又能够减少卷积层的参数,比如两个3
3的卷积层叠加等价于一个55卷积核的效果,3个33卷积核叠加相加相当于一个77的卷积核,而且参数更少。大约是77卷积层的(333)/(77)=0.55,三个卷积层的叠加,对特征学习能力更强)
(3)池化层:从AlexNet的kernel size为3
3,stride为2的max-pooling改变为kernel size均为22,stride为2的max-pooling,小的池化核能够带来更细节的信息捕获(当时也有average pooling,但是在图像任务上max-pooling的效果更好,max更加容易捕捉图像上的变化,带来更大的局部信息差异性,更好的描述边缘纹理等,用average-pooling可能会使得图像模糊了,类似与数字图像处理的高斯模糊)
其他特点:
全连接层:特征图的高度从512后开始进入到全连接层,也就是说全连接层前是7
7512维度的特征图(大概为25000),这个全连接层过程要将25000映射到4096,(大约将原来的信息压缩成原来的五分之一),有可能是这个压缩过程太急于是又接了一个fc4096作为缓冲。
使用1
1卷积核:选用卷积核的最直接原因是在维度上继承全连接,在这里可以增加决策函数的非线性能力(?)
1*1卷积的特点:
(1)不考虑单通道上像素的局部信息,专注于一个卷积核内部通道的信息整合;
(2)对feature map降维或者升维,例如224x224x100的图像(或feature map)经过20个conv1x1的卷积核,得到224x224x20的feature map。尤其当卷积核(即filter)数量达到上百个时,3x3或5x5卷积的计算会非常耗时,所以1x1卷积在3x3或5x5卷积计算前先降低feature map的维度。

**应用:**图像识别(用于类别较多图像识别如猫狗识别),图像风格换等。

总结:VGG模型以较深的网络结构,较小的卷积核和池化采样域,使得其能够在获得更多图像特征的同时控制参数的个数,避免过多的计算量以及过于复杂的结构。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值