深度学习的优化

一些符号:
θ t \theta _{t} θt:模型参数:时间步长
▽ L ( θ t ) \bigtriangledown L(\theta _{t}) L(θt)或者 g t g _{t} gt: θ t \theta _{t} θt的梯度,用于计算 θ t + 1 \theta _{t+1} θt+1
m t + 1 m_{t+1} mt+1:动量从0到t累积,用于计算 θ t + 1 \theta _{t+1} θt+1,记录前面时刻的梯度
在这里插入图片描述
如上图所示:
x t x_{t} xt:输入
θ t \theta _{t} θt:时刻t的模型参数
y t y_{t} yt:输出
y ^ t \hat{y}_{t}^{} y^t:输出对应的标签
L ( θ t ; x t ) L(\theta _{t};x_{t}) L(θt;xt):输出值与标签所得出的损失值
优化的意义
找到θ,使得 s u m x L ( θ ; x ) sum_{x}L(\theta;x) sumxL(θ;x)取得最小

几个常见的优化算法:

随机梯度下降:
在这里插入图片描述
带动量的梯度下降:
在这里插入图片描述
结果不只取决于当前梯度,还与之前的值有关系。
在这里插入图片描述
如上图所示,如果简单的使用梯度下降,在 ∂ L ∂ w = 0 \frac{\partial L}{\partial w} = 0 wL=0处,就不会再继续移动,但是,当使用有动量的随机梯度下降,会受动量的影响,继续移动。

Adagrad

在这里插入图片描述
如图所示Adagrad的η,加上了一个分母,为了防止前几个时间点的梯度过大,出现梯度爆炸的情况,反而得到更差的结果。

RMSProp
在这里插入图片描述
RMSProp是Adagrad的改进,最大的区别是分母部分,不会无止境的增加。

Adam
Adam综合了SGDM算法和RMSProp算法:
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值