神经网络与深度学习笔记（2）—

本文链接：https://blog.csdn.net/weixin_51610868/article/details/137506528

在训练数据集的过程中，我们常常需要使用一些方式使其性能优化。

常用的方法包括使用动量法，自适应梯度算法等等；常用的技巧包括模型初始化，训练并测试数据（K折交叉验证）拟合等等。

模型初始化是通过简单的考虑，把所有权值在[-1,1]区间内按均值或高斯分布进行初始化。比如Xavier初始化：为了使得网络中信息更好的流动，每一层输出的方差应该尽量相等。因此需要实现下面的均匀分布：

再者是训练数据，验证数据和测试数据，通常三者的比例为70%，15%，15%或60%，20%和20%

当数据较为庞大时，训练和验证数据的比例可适当减少。

K折交叉验证：原始训练数据被分成K个不重叠的子集。然后执行K次模型训练和验证，每次在K-1个子集上进行训练，并在剩余的一个子集（在该轮中没有用于训练的子集）上进行验证，最后通过对K次实验的结果取平均里估计训练和验证误差。

还有一种技巧时暂退（Dropout）：在整个训练过程的每一次迭代中，标准暂退法包括在计算下一层之前当前层中的一些节点置零。如下图所示：

自适应梯度算法：

Adaptive Gradient 自适应梯度，参数自适应变化是指具有较大偏导的参数相应有一个较大的学习率，而具有小偏导的参数则对于一个较小的学习率，每个参数的学习率回缩放各参数反比于其历史梯度平方值总和的平方根

Adam算法：加入了历史梯度平方的指数衰减平均（r），计算保留历史梯度的指数衰减平均，相当于动量。

经典神经网络结构介绍

AlexNet

输入层：AlexNet 的输入是固定大小的图像，通常为 227x227 像素的 RGB 图像。
卷积层1：第一个卷积层有 96 个卷积核（过滤器），大小为 11x11，步幅为 4，使用 ReLU 激活函数。这个卷积层负责提取图像的低级特征。
池化层1：一个 3x3 大小的最大池化层，步幅为 2。这个池化层的作用是减小特征图的尺寸。
卷积层2：第二个卷积层有 256 个卷积核，大小为 5x5，使用 ReLU 激活函数。这个卷积层进一步提取图像的中级特征。
池化层2：一个 3x3 大小的最大池化层，步幅为 2。
卷积层3-4：两个连续的卷积层，每个卷积层有 384 个卷积核，大小为 3x3，使用 ReLU 激活函数。这些卷积层继续提取图像的高级特征。
卷积层5：第五个卷积层有 256 个卷积核，大小为 3x3，使用 ReLU 激活函数。这个卷积层进一步提取图像的高级特征。
池化层3：一个 3x3 大小的最大池化层，步幅为 2。
全连接层1：一个具有 4096 个神经元的全连接层，使用 ReLU 激活函数。
全连接层2：一个具有 4096 个神经元的全连接层，使用 ReLU 激活函数。
全连接层3：一个具有 1000 个神经元的全连接层，对应于 ImageNet 数据集中的 1000 个类别。这个全连接层的输出通过 Softmax 函数进行分类预测。