神经网络梯度优化概述

  优化方法:

•  梯度上升/梯度下降

•  批次/小批量/随机梯度上升/下降

•  Momentum、RMSProp、Adam 

  优化的目的是调整 𝑤' ← 𝑤 + 𝛼 ∗ ∇𝑔(𝑤) 中 𝛼 ∗ ∇𝑔(𝑤) 的大小,达到更快更准确收敛的效果。

因此,调整的目标为学习率或梯度。

1.SGD

  1.Batch gradient descent 批量梯度下降

        整体迭代,计算量较大

  2.Mini-batch gradient descent 小批量梯度下降

        选取一部分,速度最快

  3.Stochastic gradient descent 随机梯度下降

        随机选取,计算量小迭代快,但更新差异较大,整体效率不高

2.SGD+Momentum 动量,利用惯性

-- 把先前的动量加进公式进行计算,以防更新变化过大

-- 可以加快收敛速度,也可以避免陷入局部最优解

-- 通常,ρ = 0.9 或 0.99

3.RMSProp

-- 同样利用了惯性,但是在学习率这一参数上进行优化

-- 不同权重的学习率调整方式不同,权重梯度越大,更新速度越慢;权重梯度越小,更新越快

-- 梯度大的方向上学习率调低,梯度小的学习率增大

4.Adam

-- 结合momentum和RMSProp,通常收敛速度更快。通常使用该优化方法


以上方法都将学习率作为超参数

学习率会随着时间的推移而衰减

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值