深度学习经典网络（1）AlexNet详解读懂CNN网络的一般架构

最新推荐文章于 2024-08-18 11:12:27 发布

青衫憶笙

最新推荐文章于 2024-08-18 11:12:27 发布

阅读量3.9k

点赞数 6

分类专栏：深度学习文章标签：深度学习 AlexNet CNN网络卷积计算

本文链接：https://blog.csdn.net/yaochunchu/article/details/95523953

版权

本文深入探讨了AlexNet，2012年ImageNet竞赛的冠军，它是深度学习时代的开创者。文章从AlexNet的结构、特点出发，详细介绍了卷积神经网络的一般结构，包括卷积层的作用、卷积操作、AlexNet中的卷积层设计，以及数据增强、ReLU激活、局部响应归一化等关键技术。AlexNet通过加深网络结构、使用数据增强和Dropout等方法有效抑制过拟合，对后续CNN设计产生了深远影响。

摘要由CSDN通过智能技术生成

1.背景

2012年AlexNet在ImageNet大赛上一举夺魁，开启了深度学习的时代，虽然后来大量比AlexNet更快速更准确的卷积神经网络结构相继出现，但是AlexNet作为开创者依旧有着很多值得学习参考的地方，它为后续的CNN甚至是R-CNN等其他网络都定下了基调，所以下面我们将从AlexNet入手，理解卷积神经网络的一般结构。

先给出AlexNet的一些参数和结构图：

卷积层：5层

全连接层：3层

深度：8层

参数个数：60M

神经元个数：650k

分类数目：1000类

AlexNet结构图：

由于当时的显卡容量问题，AlexNet 的60M个参数无法全部放在一张显卡上操作，所以采用了两张显卡分开操作的形式，其中在C3，R1，R2，R3层上出现交互，所谓的交互就是通道的合并，是一种串接操作。

AlexNet特点

AlexNet是在LeNet的基础上加深了网络的结构，学习更丰富更高维的图像特征。AlexNet的特点：

更深的网络结构
使用层叠的卷积层，即卷积层+卷积层+池化层来提取图像的特征
使用Dropout抑制过拟合
使用数据增强Data Augmentation抑制过拟合
使用Relu替换之前的sigmoid的作为激活函数
多GPU训练

2.卷积层

CNN中卷积层的作用

CNN中的卷积层，在很多网络结构中会用conv来表示，也就是convolution的缩写。卷积层在CNN中扮演着很重要的角色——特征的抽象和提取，这也是CNN区别于传统的ANN或SVM的重要不同，在传统机器学习算法中，我需要人为的指定特征是什么，比如经典的HOG+SVM的行人检测方案，HOG就是一种特征提取方法。所以我们送入SVM分类器中的其实HOG提取出来的特征，而不是图片的本身。而在卷积神经网络中，大部分特征提取的工作在卷积层自动完成了，所以越浅越不知道这个特征是个什么东西，越深越宽的卷积层一般来说就会有更好的表达能力。

卷积层如何操作

CNN中的卷积层操作与图像处理中的卷积是一样的，都是一个卷积核对图像做自上而下，自左而右的加权和操作，不同指出在于，在传统图像处理中，我们人为指定卷积核，比如Soble，我们可以提取出来图像的水平边缘和垂直边缘特征。而在CNN中，卷积核的尺寸是人为指定的，但是卷积核内的数全部都是需要不断学习得到的。比如一个卷积核的尺寸为3×3×3，分别是宽，高和厚度（通道channel），那么这一个卷积核中的参数有27个。

在这里需要说明一点：

卷积核的厚度 = 被卷积的图像的通道（channel）数

卷积核的个数 = 卷积操作后输出的通道数

卷积核个数可以理解为想要提取图片多少种特征，想提取的特征不一样，设置的卷积核参数不一样。

这两个等式关系在理解卷积层中是非常重要的！！

举一个例子，输入图像尺寸5×5×3（宽/高/通道数）,卷积核尺寸：3×3×3（宽/高/厚度），步长stride：1，边界填充padding：0，卷积核数量：1。

用这样的一个卷积核去卷积图像中某一个位置后，是将该位置上宽3，高3，通道3上27个像素值分别乘以卷积核上27个对应位置的参数得到27个数，然后累加27个数求和得到一个数，依次滑动，得到卷积后的图像，这个图像的通道数为1（与卷积核个数相同），图像的高宽尺寸如下公式：