深度学习-关于图像分类的经典10篇文章

最新推荐文章于 2022-04-04 12:10:32 发布

woshicver

最新推荐文章于 2022-04-04 12:10:32 发布

阅读量1.5k

点赞数 4

文章标签：网络卷积神经网络大数据算法

本文链接：https://blog.csdn.net/woshicver/article/details/108701413

版权

本文介绍十年来最佳图像分类论文，来帮助你快速学习计算机视觉

前言

计算机视觉是一门将图像和视频转换成机器可理解信号的学科，有了这些信号，程序员可以基于这种高阶进一步控制机器的行为。在计算机视觉任务中，图像分类是最基本的任务之一，它不仅可以用于许多真实的产品，比如googlephoto的标签和AI内容调节，而且还是许多更高级的视觉任务奠定了基础，比如目标检测和视频理解。

自从深度学习技术爆发以来，由于该领域的快速变化，初学者往往会觉得学习起来太困难，与典型的软件工程学科不同，使用DCNN进行图像分类的好书并不多，理解这一领域的最好方法是阅读学术论文。

但读什么论文呢？我从哪里开始读起呢？在本篇文章中，我将为初学者介绍10篇最佳论文。通过这些论文，我们可以看到这一领域是如何发展的，以及研究人员是如何根据先前的研究成果提出新的想法的，即使你已经在这个领域工作了一段时间，但它仍然有助于你理清脉络。那么，让我们开始吧。

1998年：LeNet

深度学习在文档识别中的应用

LeNet于1998年推出，为未来使用卷积神经网络的图像分类研究奠定了基础。许多经典的CNN技术（例如池化层，全连接层，填充和激活层）被该模型用来提取特征并进行分类，借助均方误差损失函数和20个训练周期，在MNIST测试集上的准确率达到99.05%。即使在20年后，许多最先进的分类网络仍然大体上遵循这种模式。

2012年：AlexNet

深度卷积神经网络的ImageNet分类

尽管LeNet取得了巨大的成就，显示了CNN的潜力，但由于计算能力和数据量有限，该领域的发展停滞了10年。CNN似乎只能解决一些简单的任务，如数字识别，但是对于更复杂的特征（如人脸和物体），带有SVM分类器的HarrCascade或SIFT特征提取器是更可取的方法。

然而，在2012年ImageNet大规模视觉识别挑战赛中，Alex Krizhevsky提出了一种基于CNN的解决方案，并将ImageNet测试集top-5的准确率从73.8%大幅提高到84.7%。他们的方法继承了LeNet的多层CNN思想，但大大增加了CNN的规模。

从上图中可以看出，与LeNet的32x32相比，AlexNet的输入为224x224，LeNet卷积核有6个通道，但AlexNet的有192个通道。虽然设计没有太大的变化，但随着参数的增加，网络捕捉和表示复杂特征的能力也提高了数百倍。

为了训练一个大模型，亚历克斯使用了两个GTX580GPU，每个GPU有3GB的内存，这开创了GPU训练的潮流，此外，ReLU非线性函数的使用也有助于降低计算成本。

除了为网络带来更多的参数外，它还探讨了一个大网络使用一个Dropout层带来的过拟合问题。虽然它的局部响应规范化方法在后来并没有得到太多的普及，但是启发了其他重要的规范化技术，如 BatchNorm 被用来解决梯度饱和问题。

总之，AlexNet定义了未来10年的分类网络框架：卷积、ReLu非线性激活、MaxPooling和全连接层的组合。

2014年：VGG

用于大型图像识别的超深度卷积网络

利用CNN进行视觉识别取得了巨大成功，整个研究界都大吃一惊，所有人都开始研究为什么这种神经网络能够如此出色地工作，例如在2013年发表的“可视化和理解卷积网络”中，马修·齐勒（Matthew Zeiler）讨论了CNN如何获取特征并可视化中间表示，突然之间，每个人都开始意识到CNN在2014年将成为计算机视觉的未来。

在所有直接关注者中，Visual Geometry Group的VGG网络是最吸引眼球的网络，在ImageNet测试集上，top-5的准确度达到93.2％，top-1的准确度达到了76.3％。

遵循AlexNet的设计，VGG网络有两个主要更新：

1）VGG不仅使用了像AlexNet这样更广泛的网络，而且使用了更深的网络，VGG-19具有19个卷积层，而AlexNet中只有5个。

2）VGG还展示了一些小的3x3卷积滤波器可以代替AlexNet的单个7x7甚至11x11滤波器，在降低计算成本的同时实现更好的性能。由于这种优雅的设计，VGG也成为了其他计算机视觉任务中许多开拓性网络的骨干网络，例如用于语义分割的FCN和用于对象检测的Faster R-CNN。

随着网络的层数越来越大，从多层反向传播中消失梯问题成为一个更大的问题，该问题限制了研究人员继续添加更多的网络层，因为太深的网络层数会造成网络很难拟合。为了解决这个问题，VGG还讨论了预训练和权重初始化的重要性，但是两年后，学术界为此找到更好的解决方案。

2014年：GoogLeNet

探索卷积

VGG外形美观，结构简单易懂，但在ImageNet 2014年的所有决赛中，它的表现并不是最好的。GoogLeNet，又名InceptionV1，赢得了最后的奖项。与VGG一样，GoogLeNet的主要贡献之一就是通过22层结构来推动网络深度的极限，这再次证明，向更深更广的方向发展确

最低0.47元/天解锁文章

woshicver

关注

4
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
深度学习-关于图像分类的经典10篇文章

本文介绍十年来最佳图像分类论文，来帮助你快速学习计算机视觉前言计算机视觉是一门将图像和视频转换成机器可理解信号的学科，有了这些信号，程序员可以基于这种高阶进一步控制机器的行为。在计算机视...
复制链接

扫一扫