深度学习经典网络(1)AlexNet详解读懂CNN网络的一般架构

本文深入探讨了AlexNet,2012年ImageNet竞赛的冠军,它是深度学习时代的开创者。文章从AlexNet的结构、特点出发,详细介绍了卷积神经网络的一般结构,包括卷积层的作用、卷积操作、AlexNet中的卷积层设计,以及数据增强、ReLU激活、局部响应归一化等关键技术。AlexNet通过加深网络结构、使用数据增强和Dropout等方法有效抑制过拟合,对后续CNN设计产生了深远影响。
摘要由CSDN通过智能技术生成

1.背景

2012年AlexNet在ImageNet大赛上一举夺魁,开启了深度学习的时代,虽然后来大量比AlexNet更快速更准确的卷积神经网络结构相继出现,但是AlexNet作为开创者依旧有着很多值得学习参考的地方,它为后续的CNN甚至是R-CNN等其他网络都定下了基调,所以下面我们将从AlexNet入手,理解卷积神经网络的一般结构。

先给出AlexNet的一些参数和结构图:

卷积层:5层

全连接层:3层

深度:8层

参数个数:60M

神经元个数:650k

分类数目:1000类

AlexNet结构图:

由于当时的显卡容量问题,AlexNet 的60M个参数无法全部放在一张显卡上操作,所以采用了两张显卡分开操作的形式,其中在C3,R1,R2,R3层上出现交互,所谓的交互就是通道的合并,是一种串接操作。

AlexNet特点

AlexNet是在LeNet的基础上加深了网络的结构,学习更丰富更高维的图像特征。AlexNet的特点:

  1. 更深的网络结构
  2. 使用层叠的卷积层,即卷积层+卷积层+池化层来提取图像的特征
  3. 使用Dropout抑制过拟合
  4. 使用数据增强Data Augmentation抑制过拟合
  5. 使用Relu替换之前的sigmoid的作为激活函数
  6. 多GPU训练

2.卷积层

CNN中卷积层的作用

CNN中的卷积层,在很多网络结构中会用conv来表示,也就是convolution的缩写。卷积层在CNN中扮演着很重要的角色——特征的抽象和提取,这也是CNN区别于传统的ANN或SVM的重要不同,在传统机器学习算法中,我需要人为的指定特征是什么,比如经典的HOG+SVM的行人检测方案,HOG就是一种特征提取方法。所以我们送入SVM分类器中的其实HOG提取出来的特征,而不是图片的本身。而在卷积神经网络中,大部分特征提取的工作在卷积层自动完成了,所以越浅越不知道这个特征是个什么东西,越深越宽的卷积层一般来说就会有更好的表达能力。

卷积层如何操作

CNN中的卷积层操作与图像处理中的卷积是一样的,都是一个卷积核对图像做自上而下,自左而右的加权和操作,不同指出在于,在传统图像处理中,我们人为指定卷积核,比如Soble,我们可以提取出来图像的水平边缘和垂直边缘特征。而在CNN中,卷积核的尺寸是人为指定的,但是卷积核内的数全部都是需要不断学习得到的。比如一个卷积核的尺寸为3×3×3,分别是宽,高和厚度(通道channel),那么这一个卷积核中的参数有27个。

在这里需要说明一点:

卷积核的厚度 = 被卷积的图像的通道(channel)数

卷积核的个数 = 卷积操作后输出的通道数

卷积核个数可以理解为想要提取图片多少种特征,想提取的特征不一样,设置的卷积核参数不一样。

这两个等式关系在理解卷积层中是非常重要的!!

举一个例子,输入图像尺寸5×5×3(宽/高/通道数),卷积核尺寸:3×3×3(宽/高/厚度),步长stride:1,边界填充padding:0,卷积核数量:1。

用这样的一个卷积核去卷积图像中某一个位置后,是将该位置上宽3,高3,通道3上27个像素值分别乘以卷积核上27个对应位置的参数 得到27个数,然后累加27个数求和得到一个数,依次滑动,得到卷积后的图像,这个图像的通道数为1(与卷积核个数相同),图像的高宽尺寸如下公式:

所以,卷积后的图像尺寸为:3×3×1(宽/高/通道数)

3.AlexNet

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值