《深度学习入门》（俗称：鱼书）读书笔记-第六章（与学习相关的技巧）

最新推荐文章于 2024-03-08 10:45:20 发布

呆瓜种呆瓜

最新推荐文章于 2024-03-08 10:45:20 发布

阅读量558

点赞数 1

文章标签：深度学习学习机器学习

本文链接：https://blog.csdn.net/wogan101/article/details/126790160

版权

《深度学习入门》（俗称：鱼书）读书笔记 Day3

与学习有关的技巧

到目前为止，神经网络的东西基本就介绍完了，这章是在训练过程中的一些要注意的地方和一些小技巧，包括：寻找最优权重参数的最优化方法，权重参数的初始值，超参数的设定方法等。

1.参数的更新

最优化：神经网络学习的目的是找到使损失函数的值尽可能小的参数，这是寻找最优参数的问题，解决这个问题的过程叫做最优化。
最优化所面临的困难：

1.参数空间复杂
2.参数数量庞大

1.SGD

随机梯度下降。如果函数的形状是非均向，比如呈延伸状，搜索的路径就会非常的抵消。根本原因是梯度的方向并没有指向最小值的方向（指向的是附近的梯度下降最快的方向）

2.Momentum

W=W+(av-n(L关于W的偏导数))
模仿小球的滚动

3.AdaGrad

学习率衰减：随着学习的进行学习率逐渐减小
AdaGrad会记录过去所有梯度的平方和。学习越深入，更新的幅度就会越小。如果无止境的学习，更新量就会变为0，完全不更新。
RMSProp方法不是将过去的梯度全部相加，而是逐渐的遗忘过去的梯度，在做加法运算的时候将新梯度的信息更多的反映出来，称为“指数移动平均”，呈指数状减小过去梯度的尺度。

4.Adam

结合了Momentum和AdaGrad两种方法。
Adam会设置3个参数，一个是学习率两位两个是一次momentum系数和二次momentum系数。

2.权重的初值

很重要，涉及到神经网络的学习是否能成功
权重衰减：是一种以减小权重参数的值为目的进行学习的方法，防止过拟合的产生。
权重一般初始化时设置为高斯分布的线性变换形式。
权重不能设置为一样的值原因：权重会被更新为相同，重复的值，使得神经网络拥有不同权重的意义丧失了（如果权重都是一样的，可以用更少的神经元来替代）。因此必须随机生成初始值。
梯度消失：使用sigmoid函数，偏向0和1的数据会在反向传播过程中梯度的值不断变小（因为sigmoid在偏向0，1附近导数接近0）。层次加深的深度学习中，梯度消失的问题可能会更加严重（因为多层的网络导致积累）。
各层的激活值（即激活函数的输出）的分布要有一定的广度。因为通过各层间传递多样性的数据，神经网络可以高效的学习。如果传递的是有偏向的数据，会出现梯度消失或者表现力受限（多个神经元输出几乎相同的值）的问题。
Sogmoid和tanh的初值设定：Xavier初始值：前一层的节点越多，要设定的目标节点的初始值的权重尺度就越小。与前一层的n个节点连接时i，初值可以使用标准差为根号n分之1的分布。
适用于：sigmoid和tanh函数（中央附近可视为线性函数）。因为初始值是以激活函数是线性函数为前提推导出来的。
RuLU的初始值设定：He初始值标准差为根号下n分之2的高斯分布。

3.Batch Normalization

方法：在每次激活值输出后（或输出前），调整各层的激活值分布使其拥有适当的广度。学习的时候以mini-batch为单位，按mini-batch进行正规化（即对数据进行处理使之均值为1方差为1）。
优点

1.可以使学习快速进行（增大学习率）
2.不那么依赖初始值（对于初始值不用那么敏感）
3.抑制过拟合（降低Dropout等的必要性）

4.正则化

过拟合原因：

1.模型拥有大量参数，表现力强
2.训练数据少。
解决办法：
1.为损失函数加上权重的L2范数的权值衰减方法。
2.Dropout方法：在学习过程中随机删除神经元；测试时传递所有的神经元信号，但是每个神经元的输出要乘上训练时的删除比例后在输出。（可以看成是一种集成学习的方法，通过随机删除神经元相当于构造了好几个神经网络，最后在进行综合）

5.超参数的验证

超参数是指各层的神经元的数量，batch大小，参数更新时的学习率或权值衰减等。关系到模型的性能。
数据处理：训练数据用于参数（权重和偏置）的学习，验证数据用于超参数性能的评估。测试数据最后评估模型的泛化能力。（分割数据前要进行打乱获取，避免数据集中的数据存在偏向）
最优化方法：随机采样，逐渐收缩。减小学习的epoch，缩短一次评估所需的时间。
一种比较精炼的方法：贝叶斯最优化