4-Learning rate自动调整学习率

最新推荐文章于 2024-09-27 09:42:40 发布

编程小小白白

最新推荐文章于 2024-09-27 09:42:40 发布

阅读量1.2k

点赞数

分类专栏：笔记文章标签：机器学习深度学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45743760/article/details/121682353

版权

笔记专栏收录该内容

9 篇文章 0 订阅

订阅专栏

本文探讨了在机器学习训练中，自适应学习率如何影响模型优化。AdaptiveLearningRate策略如Adagrad、RMSProp和Adam能根据参数梯度的变化动态调整学习率。Adagrad在初期表现良好，但后期学习率降低可能导致震荡。RMSProp和Adam结合了历史梯度信息，提供更好的适应性。学习率调度如LearningRateDecay和WarmUp策略能进一步优化训练过程。

摘要由CSDN通过智能技术生成

Adaptive Learning Rate

一、问题描述

当分析训练的loss已经不会随着gradient的更新而变化时，不一定就是local minima或者saddle point，分析norm of gradient ，发现在loss几乎不变的时候，gradient 还在保持着较大幅度的更新，很有可能是走到了左边的峡谷，gradient在两边跳跃，却始终不会降低loss。

学习率过大，就会出现上一张ppt所示的情形，在峡谷两侧摆动；学习率过小，在峡谷的腰部位置，表现得会不错，慢慢移动到谷底，但是当进入平缓之后，学习率过小导致始终无法移到点x处。

二、不同的参数需要不同的学习率

1.参数更新公式

我们需要的是，在梯度变化较大的位置用更小的学习率，而梯度较为平缓的地方使用更大的学习率，希望机器可以自动调节。

2.root mean square均方根———used in Adagrad

简单来讲，设置全局学习率之后，每次通过全局学习率逐参数的除以历史梯度平方和的平方根，使得每个参数的学习率不同。

效果：在参数空间更为平缓的方向，会取得更大的进步（因为平缓，所以历史梯度平方和较小，对应学习下降的幅度较小）

缺点：使得学习率过早，过量的减少

对于同一个参数，gradient的大小会被固定的差不多，但是，如果是同一个参数的同一个更新方向，出现陡坡和平坡，需要自动变化学习率，就需要更加高级的更新办法。

3.RMSProp

更近的gradient有着更大的影响，而过去的gradient有着很小的影响。使得对于同一个参数的同一个移动方向也可以自适应调整学习率。

4.最常用的optimization策略是Adam

Adam=RMSProp+Momentum

三、结果

1.without Adaptive Learning Rate

2.Adagrad

刚开始表现得十分不错，但是为什么在圆圈处出现较大幅度纵轴震荡?因为到了平缓区域，学习率降低，但是随着很多次累加，学习率又将变大，后又慢慢减小，出现下图的情况。

3.解决办法：Learning Rate Scheduling

3.1 Learning Rate Decay

随着时间的进行，我们更加接近目标，于是，我们不断减少学习率。

3.2 Warm Up

先变大，后减少（黑科技），可能性解释，刚开始，机器看到的资料不多，因此用更小的更新速度去探索更多的情报。---->please refer RAdam

四、Summary of Optimization

momentum 和不会抵消，因为momentum直接加上过去的所有movement，有考虑方向和正负号，而却只考虑大小，不考虑方向。

raw/master/img/202112021725879.png" style=“zoom:50%;” />却只考虑大小，不考虑方向。

编程小小白白 CSDN认证博客专家 CSDN认证企业博客

码龄5年

32: 原创

77万+: 周排名

11万+: 总排名

4万+: 访问

: 等级

533: 积分

143: 粉丝

200: 获赞

3: 评论

195: 收藏

私信

关注

热门文章

分类专栏

Linux 3篇
笔记 9篇
pytorch 11篇
论文摘要 2篇
车联网 1篇
报错整理 2篇
数据预处理 2篇

最新评论

6-pytorch-神经网络搭建
白话机器学习: 通过文章可以看出，博主很有耐心，技术文章不仅是对技术的坚守，更是对知识的热忱和热爱，感谢您的优质分享和坚持更文。期待着博主更加深入的剖析，为大家带来更多的技术好文。
3-pytorch-transforms使用
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
基于区块链的安全车联网数字取证系统SVDF
CSDN-Ada助手: 如何对互联网金融等新兴行业下的网络安全隐患进行有效防范？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。