Optimization for DL

秀得水乱流

已于 2022-12-27 21:26:54 修改

阅读量106

点赞数

文章标签：人工智能 python 算法

于 2022-12-27 15:46:40 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46260468/article/details/128456000

版权

On-line Learning: One pair of (X,Y') at a time step;

Off-line Learning: Pour all (X,Y') into the model at every time step;

OPTIMIZATION目的：

找到最合适的 θ 以便得到最小的 ∑xL(θ;x），或是找到最合适的 θ 以便得到最小的 L(θ)

OPTIMIZATION算法:

SDG:（Stochastic Gradient Descent）

η是Learning Rate，就是通过计算θ的Gradient后，根据公式对θ进行更新；以此反复，直到Gradient $\approx$ 0；

SDGM: SDG with Momentum

这里新增Momentum项，它还考虑之前的Movement，也可以说它不仅考虑当前Gradient，还考虑先前的Gradient；增加Momentum有助于对抗一些Critical Point，增加探索性；

ADAGRAD:

这是一种Adaptive方法，在 η下面除以一个式子，该式可以作用于：如果先前的Gradient较大，则此时更新的步幅小，而如果先前的Gradient教小，则可以更新的步幅大；也有用式，区别在于是否加入均值；

RMSProp:

也是一种Adaptive方法，和Adagrad区别只在于底部式子，新增一个参数 $\alpha$ ，如果 $\alpha$ 接近0，代表刚算出来的gi相较于之前算出的Gradient 比较重要，如果 $\alpha$ 接近1 ，代表现在算出来的 gi相对不重要，而之前的算出来的Gradient比较重要。调整 $\alpha$ 可以调整当前Gradient的比重，可以避免因初始Gradient大而一直影响Learning Rate的情况；

ADAM：

Adam将SGDM和RMSProp结合；

ADAM VS SGDM

ADAM: fast training, large generalization gap, unstable（速度快，但是不稳定）

SGDM: stable, little generalization gap, better convergence（稳定，但是速度慢）

SWATS结合了ADAM和SGDM，一开始用ADAM，结尾用SGDM；

秀得水乱流

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Optimization for DL

Optimization for deep learning
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。