Datawhale X 李宏毅苹果书 AI夏令营_深度学习基础学习心得Task2

最新推荐文章于 2024-08-28 20:53:12 发布

weixin_53088678

最新推荐文章于 2024-08-28 20:53:12 发布

阅读量71

点赞数 1

文章标签：人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_53088678/article/details/141641900

版权

本次学习主要针对自适应学习率；介绍了Adagrad，RMSprop和Adam优化器

1、为什么需要自适应学习率：

训练一个网络，在走到临界点的时候损失不再下降，而梯度并没有变得很小。相当于下坡路在两步之间，而步子迈大了，直接把下坡路跳过了，又走到上坡路上了。在这时候就需要把学习率（步幅）调低一点让梯度继续下降。

但是常规的学习率下降方法是不够用的，我们希望在梯度大的时候走慢点，在梯度小的时候走快点，所以需要引入自适应学习率

2、Adagrad

Adagrad就可以做到上述的功能。更新公式：

其中η/σ这一项是不断更新的学习率，σ又随着迭代不断更新，新的σ来自之前每次迭代的梯度。根据公式可以看到梯度g小了，σ就小了，η/σ就大了，反之亦然。

3、RMSprop

公式：

可以看到每一阶段的σ都来自于继承于前一阶段，所以这种算法也是包含了过往所有的梯度信息，与Adagrad不同的是α是一个可以调整的超参数，可以根据需要来调整当前梯度的重要程度，如果设置α比较小，则代表比较侧重于当前梯度，在梯度下降大的时候可以很快的刹车。

4、Adam

Adam 可以看作 RMSprop 加上动量，其使用动量作为参数更新方向，并且能够自适应调整学习率。

5、学习率退火、预热

在训练后期遇到了梯度很小，而距离很近的情况时，积累的σ会变得很小，步伐会变得很大，导致往其他方向走，虽然能够修正回来，但是我们希望避免这种情况

因此引入学习率退火，即实时调整η大小，让η随着迭代不断变小，步伐也可以不断变小。

预热的方法是让学习率先变大后变小

##########################

本次学习了不同优化器调整学习率的策略，在我做课题的时候一般都是用Adam，问了别人也都说时Adam最好用，通过本次学习深入了解了它为什么好。通过查询资料了解到RMSprop更适合CNN网络，因为RMSprop 的平滑效果有助于加快收敛速度，以及RNN，因为这些模型的梯度更新具有较强的波动性；Adagrad更适合例如文本分类、自然语言处理（NLP）中的词嵌入训练等场景，因为不同的词汇或特征可能出现的频率差异很大。

weixin_53088678

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Datawhale X 李宏毅苹果书 AI夏令营_深度学习基础学习心得Task2

本次学习了不同优化器调整学习率的策略，在我做课题的时候一般都是用Adam，问了别人也都说时Adam最好用，通过本次学习深入了解了它为什么好。可以看到每一阶段的σ都来自于继承于前一阶段，所以这种算法也是包含了过往所有的梯度信息，与Adagrad不同的是α是一个可以调整的超参数，可以根据需要来调整当前梯度的重要程度，如果设置α比较小，则代表比较侧重于当前梯度，在梯度下降大的时候可以很快的刹车。但是常规的学习率下降方法是不够用的，我们希望在梯度大的时候走慢点，在梯度小的时候走快点，所以需要引入自适应学习率。
复制链接

扫一扫

weixin_53088678 CSDN认证博客专家 CSDN认证企业博客

码龄4年

46: 原创

103万+: 周排名

5万+: 总排名

6807: 访问

: 等级

563: 积分

42: 粉丝

103: 获赞

4: 评论

11: 收藏

私信

关注

热门文章

最新评论

城市管理违规行为智能识别_baseline学习心得
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
代码随想录算法训练营第三天 | 移除链表元素、设计链表、反转链表
CSDN-Ada助手: 恭喜您在代码随想录算法训练营中坚持学习，第三篇博客内容涵盖了移除链表元素、设计链表、反转链表等知识点，看来您对链表操作有了更深入的理解。希望您能继续保持创作的热情，不断总结和分享学习心得。下一步建议可以尝试挑战一些更复杂的算法题目，加深对算法思想的理解，相信您会有更多收获的。加油！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
代码随想录算法训练营第一天 | 有序数组的平方、长度最小的子数组、螺旋矩阵II
CSDN-Ada助手: 非常棒的博客！写博客的过程本身就是学习的过程，不要因为一时的困难而气馁。关于有序数组的平方、长度最小的子数组和螺旋矩阵II，除了使用双指针和暴力法外，还可以尝试使用双端队列等数据结构，来解决问题。希望你能坚持下去，不断学习和提升自己的算法能力！加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
代码随想录算法训练营第一天 | 二分查找、删除元素
CSDN-Ada助手: 算法技能树或许可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。