VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE CLASSIFICATION
与之前的Alexnet和ZFnet最大的不同是,VGG使用了非常小的卷积核(3x3)。
1 模型结构
模型输入:224x224RGB图像
模型中使用的滤波器具有小的感受野:3x3。
3x3卷积核作用:我们可以发现两个堆叠的3x3(中间不含pooling操作)有着5x5大小的感受野,三个堆叠的3x3卷积核有着7x7大小的感受野。
使用三个堆叠的3x3卷积核相对7x7卷积核的优势:
- 我们执行了三次非线性操作,使得网络判别性更强。
- 参数数量减少,假设输入输出均为C个通道。堆叠的卷积核参数为 3 ( 3 2 C 2 ) = 27 C 2 3(3^{2}C^{2})=27C^{2} 3(32C2)=27C2,7X7卷积核参数为 7 2 C 2 = 49 C 2 7^{2}C^{2}=49C^{2} 72C2=49C2。
我们还使用了1x1的卷积核,这可以看作输入channel的线性组合。
关于1x1卷积核:提高非线性,通过卷积后的激活函数实现。特征降维和升维(本文中没有涉及)。
卷积核stride: 1。
通过空间padding操作保证了在卷积后分辨率不变。
在一系列卷积层后是三个全连接层(Fully-Connected, FC):前两个全连接层均含有4096个通道,第三个全连接层针对1000类分类任务,因此有1000个通道。最后一层为softmax层。
每一层均使用ReLU非线性激活。
2 网络配置
VGG建立了A-E五种网络配置,区别在于1)卷积层的数目,2)是否使用1x1卷积核和3)是否使用LRN操作(Local Response Normalisation)。