论文名称为:“Very Deep Convolutional Networks For Large-Scale Image Recognition”
随着超大规模图像数据集如imageNet,和高性能计算机系统如GPUs和大规模分布式集群产生,基于卷积神经网络的图像分类,定位与检测越来越强大。先前的AlexNet网络受限于当时的GPU等计算机系统性能的影响而无法训练更深更大的网络,使得分类正确率不高。
在VGG模型中,基本沿用了AlexNet模型架构, 但是比alexnet更深, 且使用了神经网络的集成,准确率达到了很高的水平。Vgg模型在结构方面相对于Alexnet模型的改进主要在以下两个方面:
1.用3x3或1x1的小卷积模板代替alexnet大模块
2.在整福图像和多尺度两方面训练和测试网络,并且多种网络集成
2.VGG模型解决的问题与结果
该模型基于ILSVRC-2012数据集(该数据集被用于ILSVRC-2012-2014挑战赛),该数据集包括1000个类别,整个数据集分为三个集合:训练集(1.3M幅图像)、验证集(50K幅图像)和测试集(100K幅图像)。比赛在分类问题中使用top-1和top-5错误率作为比赛结果;在定位问题中使用能够预测到的top-5类别的bounding box作为比赛结果。VGG模型在分类问题中的结果如下:
top-1 val.error: 24.7%
top-5 val.error: 7.5%
top-5 test.error: 7.3%
网络结构可以简单记为以下 公式:m[(n⋅convs)+pool]+k⋅fc+softmaxm
相比于AlexNE