机器学习常见优化方法（Optimizer）SGD，Momentum,Adagard,Adam原理

最新推荐文章于 2024-08-02 21:04:01 发布

weixin_45119066

最新推荐文章于 2024-08-02 21:04:01 发布

阅读量1.7k

点赞数 1

本文链接：https://blog.csdn.net/weixin_45119066/article/details/102700482

版权

SGD为随机梯度下降
每次迭代计算数据集的mini-batch的梯度，然后对参数进行更新。
Momentum：“冲量”
这个概念源自于物理中的力学，表示力对时间的积累效应。
参考了物理中动量的概念，前几次的梯度也会参与到当前的计算中，但是前几轮的梯度叠加在当前计算中会有一定的衰减。
Adagard：(adaptive gradient)自适应梯度算法,是一种改进的随机梯度下降算法
在训练的过程中可以自动变更学习的速率，设置一个全局的学习率，而实际的学习率与以往的参数和的平方成反比。
Adam：(adaptive moment estimation)是对RMSProp优化器的更新
利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率，每一次迭代学习率都有一个明确的范围,使得参数变化很平稳。
在这里插入图片描述