机器学习笔记:梯度下降优化算法之一(Adam)
梯度下降优化算法(gradient descent optimization algorithm)有助于抑制损失函数振荡(dampen oscillations)并加速梯度沿山谷(ravine,即曲面函数斜率最大的方向)下降,从而提高神经网络的训练效率1。本文将介绍一种常见的梯度下降优化器:Adam。
Adam
Adam 优化器2全称为 Adaptive Moment Estimation。因其结合了Momentum 和 RMSprop 的特征,在实际中效果优异,被广泛应用于多种深度神经网络模型中。Adam算法的基本操作是分别计算梯度和梯度平方的移动平均值(exponentially weighted averages),分别表示为 V d w , V d b V_{dw} , V_{db} Vdw,Vdb和 S d w , S d b S_{dw} , S_{db} S