weight decay,momentum,normalization

最新推荐文章于 2024-05-01 13:04:16 发布

WangXL1995

最新推荐文章于 2024-05-01 13:04:16 发布

阅读量154

点赞数

分类专栏：训练技巧文章标签：深度学习神经网络

原文链接：https://www.zhihu.com/question/24529483/answer/114711446

版权

训练技巧专栏收录该内容

1 篇文章 0 订阅

订阅专栏

在神经网络中weight decay,momentum,normalization起到的做

一、weight decay（权值衰减）:
它的使用既不是为了提高你所说的收敛精确度也不是为了提高收敛速度，其最终目的是防止过拟合。在损失函数中，weight decay是放在正则项（regularization）前面的一个系数，正则项一般指示模型的复杂度，所以weight decay的作用是调节模型复杂度对损失函数的影响，若weight decay很大，则复杂的模型损失函数的值也就大。
二、momentum
是梯度下降法中一种常用的加速技术。对于一般的SGD，其表达式为
$x\leftarrow x-\alpha dx$ , $x$ 沿负梯度方向下降。而带momentum项的SGD则写生如下形式： $u=\beta*u-\alpha*dx$ $x\leftarrow x+u$
其中即momentum系数，通俗的理解上面式子就是，如果上一次的momentum（即 $u$ ）与这一次的负梯度方向是相同的，那这次下降的幅度就会加大，所以这样做能够达到加速收敛的过程。

三、normalization
如果我没有理解错的话，题主的意思应该是batch normalization吧。batch normalization的是指在神经网络中激活函数的前面，将按照特征进行normalization。
优点有三点：
1、提高梯度在网络中的流动。Normalization能够使特征全部缩放到[0,1]，这样在反向传播时候的梯度都是在1左右，避免了梯度消失现象。
2、提升学习速率。归一化后的数据能够快速的达到收敛。
3、减少模型训练对初始化的依赖。

WangXL1995

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
weight decay,momentum,normalization

在神经网络中weight decay,momentum,normalization起到的做一、weight decay（权值衰减）:它的使用既不是为了提高你所说的收敛精确度也不是为了提高收敛速度，其最终目的是防止过拟合。在损失函数中，weight decay是放在正则项（regularization）前面的一个系数，正则项一般指示模型的复杂度，所以weight decay的作用是调节模型复杂度对损失函数的影响，若weight decay很大，则复杂的模型损失函数的值也就大。二、momentum是梯度
复制链接

扫一扫