一阶动量与二阶动量的角度理解优化

本文探讨了一阶动量和二阶动量在优化算法中的概念,一阶动量作为梯度的线性组合控制模型更新方向,而二阶动量通过考虑梯度的平方来调整学习率。一阶矩代表梯度均值,二阶矩则对应方差。这些概念在深度学习的梯度下降等优化过程中起到关键作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

对于一阶动量与二阶动量的理解:

我的理解是一阶动量为过去各个时刻梯度的线性组合,而二阶动量自然是过去各个时刻梯度的平方的线性组合。举个例子:我们取 mt_{}为最近两个时间步的加权和,如mt=0.7gt+0.3gt-1(这里的加权值之和不一定要为1,只要是线性组合即可),mt也可以取为过去所有时刻的平均值,如mt=g1+g2+...+gt/t

二阶动量就是过去各个时刻梯度的平方的线性组合

一阶矩和二阶矩的概念和作用?

假设梯度g是一个随机变量,随机变量g的一阶矩和二阶矩分别为E(g)和E(g的平方),一阶矩表示梯度均值,二阶矩表示其方差。由于我们只能得到的是样本,所以通常做法就是用样本据作为近似,每个时刻的梯度是随机变量的一系列样本值

一阶矩用来控制模型更新的方向,二阶矩用来控制补偿(学习率)!!!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值