VGG：用于大规模图像识别的深度卷积网络

最新推荐文章于 2023-05-21 13:58:03 发布

Civisky

最新推荐文章于 2023-05-21 13:58:03 发布

阅读量622

点赞数

文章标签：网络 cnn 计算机视觉

原文：Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.

1. Abstract

在这项工作中，我们研究了在大规模图像识别环境中，卷积网络的深度对其精度的影响。我们的主要贡献是，使用小卷积核(3x3)架构对深度网络进行了详尽的评估，并且表明将网络深度加深至16-19层，可以实现对现有网络的显著改进。这些发现是我们在ImageNet 2014挑战赛上提交作品的基础。在这次挑战赛上，我们团队在图像定位和图像分类赛道分别获得了第一名和第二名。我们的表示还可以很好地泛化到其他数据集上并获得SOTA结果。我们已经公开了两个性能最好的卷积神经网络(ConvNet)模型，以促进深度视觉表示在计算机视觉中的应用研究。

2. Method, Experiment and Result

表1. ConvNet的架构。随着添加更多的层(添加的层以粗体显示)，网络架构的深度从左(A)到右(E)依次增加。为了简洁起见，这里没有显示ReLU激活函数。

表2. ConvNet的参数量(单位：百万)。

表3. ConvNet在单个测试尺度下的性能。

表4. ConvNet在多个测试尺度下的性能。

表5. ConvNet评估技术的比较。

表6. 多个ConvNet融合的结果。

表7. 在ILSVRC分类任务中，VGG与SOTA方法的比较。我们的方法称为“VGG”。

表9. 定位误差。

表10. 在ILSVRC定位任务中，VGG与SOTA方法的比较。

表11. 在VOC-2007、VOC-2012、Caltech-101和Caltech-256数据集上的图像分类任务中，VGG与SOTA方法的比较。

表12. 在VOC-2012数据集上的单个图像动作分类任务中，VGG与SOTA方法的比较。

3. Conclusion / Discussion

在这项工作中，我们评估了用于大规模图像分类的深度卷积网络(多达19层)。研究表明，表示的深度有利于提高分类的精度，并且可以通过大幅加深传统ConvNet的架构，以在ImageNet数据集上实现SOTA性能。由附录可见，我们的模型可以很好地泛化到各种任务和数据集上，其性能仍然匹配或超过围绕较浅的图像表示构建的更为复杂的图像识别pipelines。我们的结果再次证实了网络深度在视觉表示中的重要性。

关注“多模态人工智能”公众号，一起进步！

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。