optimizer(三) Adam 系列

黑野桥

已于 2022-05-13 22:03:04 修改

阅读量5k

点赞数 1

文章标签：深度学习

于 2022-05-13 16:46:42 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wuhao1205/article/details/124753498

版权

本文介绍了Adam优化器系列，包括基础版Adam、AdamW、Adamax、NAdam和RAdam。Adam结合了RMSProp的自适应学习率与动量法，通常比SGD表现更好。AdamW通过正确实现权重衰减提供了改进，Adamax是Adam的变种，NAdam引入了Nesterov动量，RAdam通过动态控制学习率避免局部最优。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

学习记录，如有错误请指出，感谢大家指导建议。

基础版Adam

Adam是我们现在用的最多的优化器，他是将adaptive 和momentum结合在一起。ada部分参考了RMSProp，momentum就是我们熟知的动量法了。对于RMSProp有疑问的同学可以参考我上一篇的文章。

optimizer(二) RMSProp_黑野桥的博客-CSDN博客学习记录，如有错误请指出，感谢大家指导建议。上一篇讲了Adamgrad优化器，如果下文中对于矩阵或者向量的计算形式有疑问可以参考上一篇文章，上一篇文章详细描述了Adamgrad的计算过程，而RMSProp和Adamgad是几乎一摸一样的。Optimizer （一）Adagrad 矩阵形式公式理解_黑野桥的博客-CSDN博客学习记录，如有错误请指出，感谢大家指导谢大家指导建议。本篇记录来自medium原网址Adagrad的特点在于对于每一个参数的学习率是不同的，除了公共学习率之外，每一个参数的学习.https://blog.csdn.net/wuhao1205/a

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。