论文解读与复现：Alexnet-ImageNet Classification with Deep Convolutional Neural Networks

最新推荐文章于 2025-02-25 11:18:36 发布

?Isobel?

最新推荐文章于 2025-02-25 11:18:36 发布

阅读量1.7k

点赞数 27

文章标签：人工智能深度学习 pytorch

本文链接：https://blog.csdn.net/weixin_46524818/article/details/135617987

版权

ImageNet Classification with Deep Convolutional Neural Networks

今天要进行细读和复现的论文是Alexnet，在谷歌学术上12万的引用量的文章，也是深度学习的开山之作

摘要：论文训练了一个大型的深度卷积神经网络，将ImageNet LSVRC-2010比赛中的120万张高分辨率图像分类为1000个不同的类别。在测试数据上，实现了37.5%的top-1错误率和17.0%的top-5错误率。这个神经网络具有6000万个参数和65万个神经元，由五个卷积层组成，其中一些后面跟着最大池化层，还有三个全连接层，最后是一个包含1000个类别的softmax层。为了加快训练速度，论文使用了非饱和神经元和卷积操作的高效GPU实现。为了减少全连接层的过拟合，采用了“dropout”的正则化方法。Alexnet在ILSVRC-2012比赛中提交了该模型的一个变体，并在测试中获得了15.3%的top-5错误率，而第二名的错误率为26.2%。

INTRODUCTION：目标识别的方法主要使用机器学习方法。为了提高它们的性能，我们可以收集更大的数据集，学习更强大的模型，并使用更好的防止过拟合的技术。直到最近，带有标签的图像数据集相对较小，数量在几万张图像左右（例如NORB、Caltech-101/256和CIFAR-10/100）。但是要从数百万张图像中学习数千个对象，就需要一个具有大学习能力的模型。卷积神经网络（CNNs）是这类模型之一。它们的容量可以通过改变它们的深度和广度来控制，而且它们还对图像的性质（即统计的静止性和像素依赖性的局部性）进行了强有力且大部分正确的假设。因此，与具有相似大小层的标准前馈神经网络相比，CNN具有更少的连接和参数，因此更容易训练，而它们的理论最佳性能可能只稍逊于最佳。

数据集：ImageNet是一个包含超过1500万标记的高分辨率图像的数据集，涵盖了大约22,000个类别。这些图像是从网络上收集的，并由人类标记者使用亚马逊的Mechanical Turk众包工具进行标记。从2010年开始，作为Pascal Visual Object Challenge的一部分，每年都会举行一项名为ImageNet Large-Scale Visual Recognition Challenge（ILSVRC）的竞赛。ILSVRC使用ImageNet的一个子集，每个子集中包含大约1000个类别的1000张图像。总共有大约120万张训练图像，5万张验证图像和15万张测试图像。

ILSVRC-2010是唯一提供测试集标签的ILSVRC版本，因此也是论文使用的数据集。同时论文也参加了ILSVRC-2012竞赛，在本论文中也进行训练和比较。在ImageNet上，通常报告两个错误率：top-1和top-5，其中top-5错误率是模型认为最有可能的五个标签中不包含正确标签的测试图像的比例。

ImageNet包含可变分辨率的图像，而系统需要恒定的输入维度。因此，需要将图像降采样到固定分辨率256×256。对于给定的矩形图像，我们首先将图像缩放，使较短的一侧长度为256，然后从结果图像中裁剪出中心的256×256补丁。但是Alexnet没有进行图像预处理，除了从每个像素中减去训练集上的均值活动，直接原始RGB像素值上训练网络。

网络架构：包含八个可学习层，其中包括五个卷积层和三个全连接层。如下图

（这里看着貌似很复杂，不要慌，在论文复现的时候容我再对这个结构进行分析和重构）

标准的神经元激活函数通常使用 Tanh函数或Sigmoid函数。在使用梯度下降进行训练时，这些饱和非线性比非饱和非线性Relu函数要慢得多。根据Nair和Hinton的方法，我们将具有这种非线性的神经元称为修正线性单元(Rectified Linear Units, ReLUs)。使用ReLUs的深度卷积神经网络训练速度比使用tanh单元的等效网络快几倍。

在论文中Alexnet的训练是使用了两个RTX580进行训练，单个GTX 580 GPU只有3GB的内存，这限制了可以在其上训练的网络的最大大小。事实证明，120万个训练样本足以训练网络，而这些网络太大，无法放入一个GPU中。因此，我们将网络扩展到两个GPU上。当前的GPU非常适合跨GPU并行化，因为它们能够直接读取和写入彼此的内存，而无需经过主机内存。论文采用的并行化方案基本上将每个GPU的卷积核（或神经元）一分为二，加上一个额外的技巧：GPU只在某些层之间进行通信。

ReLUs具有一个特性，即它们不需要输入归一化来防止它们饱和。如果至少一些训练样本对ReLU产生正输入，那么该神经元将进行学习。然而，我们仍然发现以下本地归一化方案有助于泛化。响应归