VGG论文给出了一个非常振奋人心的结论:卷积神经网络的深度增加和小卷积核的使用对网络的最终分类识别效果有很大的作用。记得在AlexNet论文中,也做了最后指出了网络深度的对最终的分类结果有很大的作用。这篇论文则更加直接的论证了这一结论。
作者Karen Simonyan & Andrew Zisserman来自Visual Geometry Group, Department of Engineering Science, University of Oxford
网络结构
论文指出:
- VGG不仅在ILSVRC的分类和检测任务中取得了the state-of-the-art的精度
- 在其他数据集上也具有很好的推广能力
结构Architecture
名称 | 说明 |
---|---|
输入图像大小 | 224x224 |
预处理 | 减去均值 |
卷积核 | 3x3,1x1 |
padding | 1 for 3x3 |
Max-pooling | 2x2 s-2 |
激活函数 | ReLU |
说明:
*1x1卷积核:降维,增加非线性性
*3x3卷积核:多个卷积核叠加,增加空间感受野,减少参数
论文中,作者指出,虽然LRN(Local Response Normalisation)在AlexNet对最终结果起到了作用,但在VGG网络中没有效果,并且该操作会增加内存和计算,从而作者在更深的网络结构中,没有使用该操作。
VGG网络结构
VGG网络参数
Q1: 为什么3个3x3的卷积可以代替7x7的卷积?
- 3个3x3的卷积,使用了3个非线性激活函数,增加了非线性表达能力,使得分割平面更具有可分性
- 减少参数个数。对于C个通道的卷积核,7x7含有参数 72C2 , 3个3x3的参数个数为 3∗32C