原文:Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.
1. Abstract
在这项工作中,我们研究了在大规模图像识别环境中,卷积网络的深度对其精度的影响。我们的主要贡献是,使用小卷积核(3x3)架构对深度网络进行了详尽的评估,并且表明将网络深度加深至16-19层,可以实现对现有网络的显著改进。这些发现是我们在ImageNet 2014挑战赛上提交作品的基础。在这次挑战赛上,我们团队在图像定位和图像分类赛道分别获得了第一名和第二名。我们的表示还可以很好地泛化到其他数据集上并获得SOTA结果。我们已经公开了两个性能最好的卷积神经网络(ConvNet)模型,以促进深度视觉表示在计算机视觉中的应用研究。
2. Method, Experiment and Result
表1. ConvNet的架构。随着添加更多的层(添加的层以粗体显示),网络架构的深度从左(A)到右(E)依次增加。为了简洁起见,这里没有显示ReLU激活函数。
表2. ConvNet的参数量(单位:百万)。
表3. ConvNet在单个测试尺度下的性能。
表4. ConvNet在多个测试尺度下的性能。
表5. ConvNet评估技术的比较。
表6. 多个ConvNet融合的结果。
表7. 在ILSVRC分类任务中,VGG与SOTA方法的比较。我们的方法称为“VGG”。
表9. 定位误差。
表10. 在ILSVRC定位任务中,VGG与SOTA方法的比较。
表11. 在VOC-2007、VOC-2012、Caltech-101和Caltech-256数据集上的图像分类任务中,VGG与SOTA方法的比较。
表12. 在VOC-2012数据集上的单个图像动作分类任务中,VGG与SOTA方法的比较。
3. Conclusion / Discussion
在这项工作中,我们评估了用于大规模图像分类的深度卷积网络(多达19层)。研究表明,表示的深度有利于提高分类的精度,并且可以通过大幅加深传统ConvNet的架构,以在ImageNet数据集上实现SOTA性能。由附录可见,我们的模型可以很好地泛化到各种任务和数据集上,其性能仍然匹配或超过围绕较浅的图像表示构建的更为复杂的图像识别pipelines。我们的结果再次证实了网络深度在视觉表示中的重要性。
关注“多模态人工智能”公众号,一起进步!