优化方法:
• 梯度上升/梯度下降
• 批次/小批量/随机梯度上升/下降
• Momentum、RMSProp、Adam
优化的目的是调整 𝑤' ← 𝑤 + 𝛼 ∗ ∇𝑔(𝑤) 中 𝛼 ∗ ∇𝑔(𝑤) 的大小,达到更快更准确收敛的效果。
因此,调整的目标为学习率或梯度。
1.SGD
1.Batch gradient descent 批量梯度下降
整体迭代,计算量较大
2.Mini-batch gradient descent 小批量梯度下降
选取一部分,速度最快
3.Stochastic gradient descent 随机梯度下降
随机选取,计算量小迭代快,但更新差异较大,整体效率不高
2.SGD+Momentum 动量,利用惯性
-- 把先前的动量加进公式进行计算,以防更新变化过大
-- 可以加快收敛速度,也可以避免陷入局部最优解
-- 通常,ρ = 0.9 或 0.99
3.RMSProp
-- 同样利用了惯性,但是在学习率这一参数上进行优化
-- 不同权重的学习率调整方式不同,权重梯度越大,更新速度越慢;权重梯度越小,更新越快
-- 梯度大的方向上学习率调低,梯度小的学习率增大
4.Adam
-- 结合momentum和RMSProp,通常收敛速度更快。通常使用该优化方法
以上方法都将学习率作为超参数
学习率会随着时间的推移而衰减