本章节将介绍深度学习中动量的相关概念和应用。
1. 动量的基本原理
动量是一种用于加速梯度下降的技术。
它通过累积过去梯度的指数加权平均来计算当前更新方向。
这样可以增强梯度下降的稳定性,加快收敛速度。
2. 动量的数学公式
动量更新公式为:v = γv - η∇L(θ)
其中v是动量累积项,γ是动量因子,η是学习率,∇L(θ)是梯度。
每次迭代, v会根据之前的动量和当前梯度进行更新。
参数θ则是用v来更新,而不是直接使用梯度。
3. 动量的作用
动量可以加快模型收敛,特别是对于梯度较小的平坦区域。
它