深度学习的优化

最新推荐文章于 2021-10-29 10:46:02 发布

weixin_45540546

最新推荐文章于 2021-10-29 10:46:02 发布

阅读量173

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45540546/article/details/110194440

版权

一些符号：
$\theta _{t}$ ：模型参数：时间步长
$\bigtriangledown L(\theta _{t})$ 或者 $g _{t}$ : $\theta _{t}$ 的梯度，用于计算 $\theta _{t+1}$
$m_{t+1}$ :动量从0到t累积,用于计算 $\theta _{t+1}$ ，记录前面时刻的梯度
在这里插入图片描述
如上图所示：
$x_{t}$ :输入
$\theta _{t}$ ：时刻t的模型参数
$y_{t}$ :输出
$\hat{y}_{t}^{}$ :输出对应的标签
$L(\theta _{t};x_{t})$ :输出值与标签所得出的损失值
优化的意义：
找到θ，使得 $sum_{x}L(\theta;x)$ 取得最小

几个常见的优化算法：

随机梯度下降：
在这里插入图片描述
带动量的梯度下降：

结果不只取决于当前梯度，还与之前的值有关系。

如上图所示，如果简单的使用梯度下降,在 $\frac{\partial L}{\partial w} = 0$ 处，就不会再继续移动，但是，当使用有动量的随机梯度下降，会受动量的影响，继续移动。

Adagrad

在这里插入图片描述
如图所示Adagrad的η，加上了一个分母,为了防止前几个时间点的梯度过大，出现梯度爆炸的情况，反而得到更差的结果。

RMSProp
在这里插入图片描述
RMSProp是Adagrad的改进，最大的区别是分母部分，不会无止境的增加。

Adam
Adam综合了SGDM算法和RMSProp算法：
在这里插入图片描述

weixin_45540546

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度学习的优化

一些符号：θt\theta _{t}θt：模型参数：时间步长▽L(θt)\bigtriangledown L(\theta _{t})▽L(θt)或者gtg _{t}gt:θt\theta _{t}θt的梯度，用于计算θt+1\theta _{t+1}θt+1mt+1m_{t+1}mt+1:动量从0到t累积,用于计算θt+1\theta _{t+1}θt+1，记录前面时刻的梯度如上图所示：xtx_{t}xt:输入θt\theta _{t}θt：时刻t的模型参数yty_{t}
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。