一阶动量与二阶动量的角度理解优化

最新推荐文章于 2024-05-23 13:01:48 发布

W_Yeee

最新推荐文章于 2024-05-23 13:01:48 发布

阅读量3.7k

点赞数 2

文章标签：机器学习深度学习人工智能

本文链接：https://blog.csdn.net/weixin_48592695/article/details/124799113

版权

本文探讨了一阶动量和二阶动量在优化算法中的概念，一阶动量作为梯度的线性组合控制模型更新方向，而二阶动量通过考虑梯度的平方来调整学习率。一阶矩代表梯度均值，二阶矩则对应方差。这些概念在深度学习的梯度下降等优化过程中起到关键作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

对于一阶动量与二阶动量的理解：

我的理解是一阶动量为过去各个时刻梯度的线性组合，而二阶动量自然是过去各个时刻梯度的平方的线性组合。举个例子：我们取 $mt_{}$ 为最近两个时间步的加权和，如 $mt=0.7gt+0.3gt-1$ （这里的加权值之和不一定要为1，只要是线性组合即可）， $mt$ 也可以取为过去所有时刻的平均值，如 $mt=g1+g2+...+gt/t$ 。