理论篇3：深度学习之----Momentum优化器(2)

xp_fangfei

已于 2022-08-14 10:00:41 修改

阅读量917

点赞数

分类专栏：机器学习文章标签：深度学习人工智能机器学习

于 2022-08-14 09:41:56 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xp_fangfei/article/details/126324701

版权

机器学习专栏收录该内容

25 篇文章

订阅专栏

活动地址：CSDN21天学习挑战赛

1、介绍

有一种算法叫做Momentum，或者叫做动量梯度下降法，运行速度几乎总是快于标准的梯度下降算法，简而言之，Momentum算法在原有的梯度下降法中引入了动量。基本的想法就是计算梯度的指数加权平均数，并利用该梯度更新权重。

引入动量比起普通梯度下降法主要能够增加两个优点。

首先，引入动量能够使得物体在下落过程中，当遇到一个局部最优的时候有可能在原有动量的基础上冲出这个局部最优点；并且，普通的梯度下降法方法完全由梯度决定，这就可能导致在寻找最优解的过程中出现严重震荡而速度变慢，但是在有动量的条件下，物体运动方向由动量和梯度共同决定，可以使得物体的震荡减弱，更快地运动到最优解

2、指数加权平均

指数加权移动平均是一种常用的序列数据处理方式，用于描述数值的变化趋势，本质上是一种近似求平均的方法。计算公式如下：

$v_t = βv_t-_1+(1-β)θ_t$

其中 $v_t$ 表示第t个数的估计值，β为一个可调参数，为 $v_t − _1$ 的权重， $θ_t$

表示第t个数的实际值。

3、 Momentum介绍

在深度学习中，Momentum（动量）优化算法是对梯度下降法的一种优化，它在原理上模拟了物理学中的动量，已成为目前非常流行的深度学习优化算法之一。

3.1 背景

下图表明了传统的梯度下降法会存在的问题，即训练轨迹会呈现锯齿状，这无疑会大大延长训练时间。同时，由于存在摆动现象，学习率只能设置的较小，才不会因为步伐太大而偏离最小值。

在这里插入图片描述

3.2 优化思路

想让纵向的摆动尽量小，同时保持横向的运动方向比较平稳。引入动量能够使得物体在下落过程中，当遇到一个局部最优的时候有可能在原有动量的基础上冲出这个局部最优点；并且，普通的梯度下降法方法完全由梯度决定，这就可能导致在寻找最优解的过程中出现严重震荡而速度变慢，但是在有动量的条件下，物体运动方向由动量和梯度共同决定，可以使得物体的震荡减弱，更快地运动到最优解。

引入动量后新的轨迹如下图：（红色线）

在这里插入图片描述

3.3 更新公式

它主要是基于梯度的移动指数加权平均。假设在当前的迭代步骤第 t 步中，那么基于Momentum优化算法可以写成下面的公式：
在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

xp_fangfei 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。