Alexnet

GY-赵

已于 2022-03-22 11:30:09 修改

阅读量164

点赞数 1

分类专栏：机器学习文章标签：神经网络机器学习深度学习

于 2021-04-26 11:25:47 首次发布

本文链接：https://blog.csdn.net/xiaoxiaomo_/article/details/116110680

版权

机器学习专栏收录该内容

34 篇文章 4 订阅

订阅专栏

1.introduction

刚开始文章就说了现在（指当时）的训练数据集都是小尺寸的，简单的识别任务可以很好的完成，但是在现实中要考虑很多变量，为了更好的应用就要有更多更大的数据集，人们也已经意识到小数据集的缺点，但是直达最近获取上百万带标签图像才成为可能。为了从上百万图像中识别出几千张目标，我们需要拥有更强大学习能力的模型，同时我们的任务复杂度特别高，即使是imagenet这样的数据集也无法轻易完成，因此我们需要很多先验知识补偿我们没有的所有数据，卷积神经网络（CNN）构成了这类模型之一。可以通过改变其深度和宽度来控制它们的容量，并且它们还对图像的性质（即统计的平稳性和像素依存性的局部性）做出强有力且几乎正确的假设。因此，与具有类似大小的层的标准前馈神经网络相比，CNN的连接和参数要少得多，因此更易于训练，而其理论上最好的性能可能只会稍差一些。

Alexnet网络包含许多新的和不寻常的功能 ,网络包含5个卷积层和3个全连接层，此深度似乎很重要：作者发现删除任何卷积层（每个卷积层不超过1个）都会导致性能较差。最后，网络的大小主要受到当时GPU可用的内存量以及愿意接受的训练时间的限制。当时的情况GPU比较贵，计算资源很紧张， Alexne网络使用两个GTX 580 3GB GPUs需要五到六天的时间来训练，如果当时有更快的GPU和更大的数据集可能会有更好的表现。

训练数据集大约包含120万张训练图片，5万张验证图片，15万张测试图片。作者使用ILSVRC-2010（当时imagenet中唯一带测试集的）表现最好，也在ILSRVC-2012a上测试过，结果在论文中都有。

图1：带有ReLU的四层卷积神经网络（实线）在CIFAR-10上达到25％的训练错误率，比具有tanh神经元的等效网络（虚线）快六倍。

阅读Alexnet论文时发现的一段话，记录下来：

根据输入x来模拟神经元输出f的标准方法是 f(x)=tanh(x) 或 $f(x)=(1+e^{x})^{-1}$ 。就梯度下降的训练时间而言，这些饱和非线性要比非饱和非线性 f(x)=max(0;x) 慢得多。继Nair和Hinton 之后，我们将具有这种非线性的神经元称为整流线性单位（ReLUs）。 带有ReLU的深度卷积神经网络的训练速度比同等的tanh单元快几倍。这在图1中得到了证明，该图显示了对于特定的四层卷积网络，在CIFAR-10数据集上达到25％训练误差所需的迭代次数。该图表明，如果使用传统的饱和神经元模型，我们将无法使用如此大型的神经网络进行这项工作。

我们不是第一个在CNN中考虑替代传统神经元模型的人。例如，Jarrett等声称非线性 $f(x)=\left |tanh(x) \right |$ 在其对比归一化类型以及随后在Caltech-101数据集上进行局部平均合并的情况下效果特别好。但是，在此数据集上，主要的问题是防止过度拟合，因此他们观察到的效果与使用ReLU时拟合报告的训练集的加速能力有所不同。更快的学习对在大型数据集上训练的大型模型的性能有很大的影响。

2. Overall architecture

网络主要由5个卷积层和3个全连接层组成，其实这里说的卷积层还包括了LRN和Pooling,因此在理解网络的时候比较麻烦，由于当时的GPU限制，论文这个图也比较奇怪，让人难以看懂。

完整的计算过程如上图所示，这里也参考了一些其他博主的文章请点击，点击2.

3.Local Response Normalization（局部响应归一化）

ReLUs有个很好的特性是它不需要输入正规化来防止它变得饱和。前面说过了，不饱和的函数在梯度下降求解时速度更快。只要某些样本上能对ReLU产生正值的输入，那个神经元就可以学习（敲黑板，记住ReLUs的形状）。然而，作者发现，遵从局部响应的正规化有助于泛化能力。作者提出了一种正则化方法，效果很好。

4.Overlapping Pooling（重叠池化-空间金字塔池化SPP）

CNN中的池化层汇总了同一内核中相邻神经元组的输出映射。一般而言，由相邻池化单元汇总的邻域不重叠。更准确地说，池化层可以被认为是由以s像素(=stride)为间隔的池化格子组成，每层汇总一个以池化单元为中心的大小为 z*z (pooling size)的邻域池单位的。如果我们设置s=z，我们得到了在CNN中通常使用的传统局部池化层。如果设s<z，则得到重叠池化。这就是我们在网络中使用的方法，s=2，z=3。该方案将top-1和top-5错误率分别降低了0.4%和0.3%；与非重叠方案s=2，z=2相比较，产生相同维度的输出。在训练过程中，我们观察到使用重叠池化的模型更不容易过拟合。

参考文献点击获取

GY-赵

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Alexnet

1.introduction 刚开始文章就说了现在（指当时）的训练数据集都是小尺寸的，简单的识别任务可以很好的完成，但是在现实中要考虑很多变量，为了更好的应用就要有更多更大的数据集，人们也已经意识到小数据集的缺点，但是直达最近获取上百万带标签图像才成为可能。为了从上百万图像中识别出几千张目标，我们需要拥有更强大学习能力的模型，同时我们的任务复杂度特别高，即使是imagenet这样的数据集也无法轻易完成，因此我们需要很多先验知识补偿我们没有的所有数据，卷积神经网络（CNN）构成了这类模型之一...
复制链接

扫一扫

专栏目录