1. AlexNet
1.1 网络结构
网络由5个卷积层和3个全连接层组成。
1.2 改进
1.2.1 输入样本
用最简单、通用的图像数据变形的方式,例如翻转、裁剪、改变颜色,对输入的图像进行一些变化,以增强网络泛化能力。
1.2.2 激活函数
在卷积层和全连接层之后,用ReLU代替Sigmoid函数作为激活函数。
1.2.3 采用dropout
在每个全连接层后面使用一个 Dropout 层,以概率 p 随机关闭激活函数,同样是为了增强泛化能力,避免过拟合。
2. VGG-16
2.1 网络结构
规律:随网络深入,高和宽衰减,通道数增多。
2.2 改进
网络规模进一步增大,参数数量约为1.38亿;
由于各卷积层、池化层的超参数基本相同,整体结构呈现出规整的特点。
3. 残差网络
3.1 为什么需要残差网络
3.1.1 理论和实际的偏差
理论上神经网络的深度越深,学习能力就越强,但实际训练时不是这样。可以从图中看出训练达到一定轮数后,误差不降反升。
3.1.2 梯度消失和梯度爆炸
当神经网络变得非常深时,由于反向传播算法中的链式法则,导致每个乘积项中的偏导数都小于1,则整个梯度也会变得非常小,最终导致前面的层的参数几乎不会得到更新,从而导致神经网络的训练变得非常困难。这就是梯度消失问题。
相反的,如果某些层的权重过大,则整个梯度也会变得非常大,最终导致数值溢出,从而导致神经网络的训练变得不稳定。这就是梯度爆炸问题。
3.2 残差块和残差网络结构
特点:前一层的输入可以不经过矩阵运算和激活函数直接进入下一层。
将多个残差块堆叠就是残差网络。
4. 常用数据集
MNIST
MNIST数据集主要由一些手 写数字的图片和相应的标签组成,图片一共有 10 类,分别对应从 0~9。
FashionMNIST
FashionMNIST 是一个替代 MNIST 手写数字集 的图像数据集。它是由 Zalando旗下的研究部门提供,涵盖了来自 10 种类别的共 7 万个不同商品的正面图片。FashionMNIST 的大小、式和训练集/测试集划分与原始的MNIST 完全一致。60000/10000 的训练测试数据划分,28x28的灰度图片。你可以直接用它来测试你的机器学习和深度学习算法性能,且不需要改动任何的代码。
CIFAR-10
CIFAR-10CIFAR-10数据集由10个类的60000个32x32彩色图像组成,每个类有6000个图像。有50000个训练图像和10000个测试图像。