深度学习通用策略：SGD, weight decay, momentum, normalization含义理解

最新推荐文章于 2025-03-07 17:15:29 发布

BigCowPeking

最新推荐文章于 2025-03-07 17:15:29 发布

阅读量1.2w

点赞数 7

分类专栏：深度学习通用策略文章标签： SGD

本文链接：https://blog.csdn.net/wfei101/article/details/79824656

版权

1. weight decay

（权值衰减）的使用既不是为了提高你所说的收敛精确度也不是为了提高收敛速度，其最终目的是防止过拟合。在损失函数中，weight decay是放在正则项（regularization）前面的一个系数，正则项一般指示模型的复杂度，所以weight decay的作用是调节模型复杂度对损失函数的影响，若weight decay很大，则复杂的模型损失函数的值也就大。
2. momentum

动量是梯度下降法中一种常用的加速技术。对于一般的SGD，其表达式为x<- x-a*dx,,x沿负梯度方向下降。而带动量的momentum项的SGD则写生如下形式：v=B*v-a*dx, x<- x+v 其中B即momentum系数，通俗的理解上面式子就是，如果上一次的momentum（即v）与这一次的负梯度方向是相同的，那这次下降的幅度就会加大，所以这样做能够达到加速收敛的过程。

3. normalization

如果我没有理解错的话，题主的意思应该是batch normalization吧。batch normalization的是指在神经网络中激活函数的前面，将w*x+b按照特征进行normalization，这样做的好处有三点：
1、提高梯度在网络中的流动。Normalization能够使特征全部缩放到[0,1]，这样在反向传播时候的梯度都是在1左右，避免了梯度消失现象。
2、提升学习速率。归一化后的数据能够快速的达到收敛。
3、减少模型训练对初始化的依赖。

4. SGD(随机梯度下降)