机器学习笔记:梯度下降优化算法(之一)

本文介绍了Adam优化器,一种结合Momentum和RMSprop优势的梯度下降算法,常用于深度神经网络训练,能有效抑制损失函数振荡并提高效率。伪代码展示了Adam算法的基本操作,包括移动平均值的计算和偏差矫正。
摘要由CSDN通过智能技术生成

机器学习笔记:梯度下降优化算法之一(Adam)

梯度下降优化算法(gradient descent optimization algorithm)有助于抑制损失函数振荡(dampen oscillations)并加速梯度沿山谷(ravine,即曲面函数斜率最大的方向)下降,从而提高神经网络的训练效率1。本文将介绍一种常见的梯度下降优化器:Adam。

Adam

Adam 优化器2全称为 Adaptive Moment Estimation。因其结合了Momentum 和 RMSprop 的特征,在实际中效果优异,被广泛应用于多种深度神经网络模型中。Adam算法的基本操作是分别计算梯度和梯度平方的移动平均值(exponentially weighted averages),分别表示为 V d w , V d b V_{dw} , V_{db} Vdw,Vdb S d w , S d b S_{dw} , S_{db} S

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值