发表期刊
published as a conference paper at ICLR 2015
作者
Karen Simonyan&Andrew Zisserman
发表日期
2015
研究背景
本文研究了卷积网络深度对其在大规模图像识别环境中的准确性的影响。vggnet就是在Alexnet 的基础上拓宽了网络深度,本质上网络模型仍然是由卷积层和全连接层组成。但是在Alexnet的网络模型中,第一层采用的是11*11 的卷积核,在ZFnet 中使用的是7*7的卷积核,但在本文中使用的是3*3的卷积核。
vggnet的网络模型的结果表明:深度有利于结果的准确性,并且可以使用传统的ConvNet架构实现IimageNet挑战数据集上最新性能。而且还展示了vggnet可以很好的推广到其他数据集。
方法和性质
之前改进的方法:
1:利用较小的接收窗口大小和较小的第一层卷积层的跨度(简单来说就是修改第一层卷积核较小的尺寸和步伐)
2:整个图像和多个尺度上密集的训练和测试网络
本文修改的方法
修改了架构的其他参数,并添加了更多的卷积层来稳定增加网络深度。由于本文使用了3*3的卷积核(后面讲解),不仅可以减少空间参数,而且还可以增加网络层数。
本文利用的是ImageNet分类大赛的ImageNet的数据集
网络架构
在训练过程中,我们的卷积网络的输入是一个固定大小的224*224 RGB的图像,我们所作的唯一预处理是从每个像素中减去训练集上计算的平均RGB值。
为什们要做这样的预处理
为了进行数据特征标准化,即像机器学习中的特征预处理那样对输入特征向量各维去均值再除以标准差,但由于自然图像各点像素值的范围都在0-255之间,方差大致一样,只要做去均值(减去整个图像数据集的均值或各通道关于图像数据集的均值)处理即可。
主要原因:我们默认自然图像是一类平稳的数据分布(即数据每一维的统计都服从相同分布),此时,在每个样本上减去数据的统计平均值可以移除共同的部分,凸显个体差异。
如图所示:减去均值之后天空的纹理消失,凸显了车和建筑物的特点,另外值得注意的是,这种预处理只发生在训练集不发生在测试集。
vgg16包含13个卷积层以及3个全连接层
vgg19包含16个卷积层和3个全连接层。
训练集:
提出的训练图片预处理的过程 1:训练图片归一化(图像等轴重调)固定最小边的尺寸为256然后
随机从【256,512】的范围内进行随机抽样,这样原始图片尺寸不一,有利于训练——尺寸抖动
2:随机裁剪
3:随机水平翻转
4:RGB颜色偏移5
测试:
将全连接层转换为卷积层:使训练阶段的3个全连接层替换为3个卷积层,使测试得到的网络没有全连接限制,能够传入任意宽度和高度的输入。
研究结果
创新点:
1:本文使用了3*3的卷积核,使用小卷积核可以增加网络深度,而网络深度正好是VGGNET想要追求的效果。3个3*3的卷积核相当于一个7*7的卷积核的所获得的featuremap
而使用3*3的卷积核对于7*7的卷积核有那些好处:首先参数量减少:,其中C为通道数,而在7*7的卷积核中 的参数量为
.明显可以看出参数量的减少。
2:使用了1*1的卷积核
1*1的卷积核最早是在network in network 这篇论文中提出来的,主要的作用是降维以及升维。(调整通道数)
降维的理解:一个28*28*192的卷积核经过32个1*1*192的卷积就会变成1*1*32 的卷积核 ,其中通道数从原先的192变为32,维度是变少了。
但是在本论文中, 1*1的卷积核是在不影响卷积层感受野的情况下增加决策的非线性的一种方式
3:更多的通道数以及层数
vggnet 由第一层的64个通道开始,然后在每个最大集合层之后增加2倍,直到达到512,层数越多对于特征信息提取的也会越多。
4:小的池化核
与AlexNet相比,Alexnet使用了重叠最大池化,也就是3*3,步长为2,而Vggnet主要使用2*2步长为2,这在一定程度上可以提高训练效率。
缺点:
网络的层数越深,参数量越多,对于算力的要求越高。
结论
作者认为网络越深准确性越高。
研究展望
是否网络深度越深,模型的训练效率越好?
想法和问题
相比较于Alexnet的网络架构,全连接层是先Dropout--->Linear--->Relu
但是Vggnet的网络架构是Linear-->Relu--->Dropout,这个顺序是否由严格的规定。此外网络也不是越深越好,网络越深,参数越多,而且参数大部分集中在全连接层,在不损失精度的条件下,有没有什么方法降低全连接层的参数以提高网络的训练效率。
本文好的表达与摘录
1*1的卷积核,在一定层度上是可以升维以及降维的,这种方式怎么运用到全连接层中,这样就有可能降低全连接的参数量。
本文中也是提出Alexnet中的响应归一化对于网络性能的提升是很少的,也就在提示我们在读论文的时候不可以全部相信都是正确的。