Optimization for Deep Learning

最新推荐文章于 2024-07-27 12:20:46 发布

「已注销」

最新推荐文章于 2024-07-27 12:20:46 发布

阅读量117

点赞数

分类专栏： NTU Machine Learning 文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45046318/article/details/120634817

版权

NTU Machine Learning 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

待更

SGD with Momentum

在这里插入图片描述

拉姆打是 hyperparameter ，有利于跳过local minima

Adagrad

在这里插入图片描述
在learning rate 下方加入了分母，也就是在sum of gradient 小的时候，可以有较大的learning rate。

RMSProp

在这里插入图片描述
有些类似于Adagrad ，但是计算的方式不太一样，防止由于前几步的gradient 太大而导致训练失败

Adam

在这里插入图片描述

Summary

在这里插入图片描述

Adam vs SGDM

在这里插入图片描述

Combine (SWATS)

在这里插入图片描述

Improve Adam

AMSGrad

在这里插入图片描述

AMSGrad 会出现类似于Adagrad相同的问题

improve SGDM

在这里插入图片描述
learning rate 随着周期在LR range 之间直接进行切换，调整，既到你求的一则parameter 很好的时候不会容易丢失。

在这里插入图片描述

warm up for adam

在这里插入图片描述

RAdam解决的问题是，当一开的较少的gradient 的 adapt 效果不好，所以说一开始要提供较小的learning rate 。

Lokkahead

在这里插入图片描述

NAG（SGDM的超前部署）

在这里插入图片描述
NAG 就是超前计算，超前部署

Adam的超前部署

在这里插入图片描述

Somethine helps optimization

在这里插入图片描述
Shuffling ：对data set进行打乱
Dropout：
Gradient noise ：对Gradient noise 增加扰动

在这里插入图片描述

SGDM vs Adam

在这里插入图片描述

Applicaton advices for Opitimizer

在这里插入图片描述

「已注销」

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Optimization for Deep Learning

待更
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。