一些基于梯度的优化方法
1.梯度下降
2.SGD
随机梯度下降,是梯度下降的一个变型,每次使用一批(batch)数据进行计算,而不是使用全部数据计算梯度。
计算所有数据的梯度导致运算时间很长,失去了随机性,容易陷入局部误差。
SGD每次可能不是朝着梯度最小的方向,但反而容易跳出局部极小值点。
3.momentum
采用SGD的同时,增加动量(momentum),帮助跳出局部极小值点或者鞍点。
4.Adagrad
是一种自适应学习率(adaptive)的方法。缺点是在某些情况下一直递减的学习率并不好,造成学习过早停止。
5.RMSprop
姿势那个学习率的改进方法。避免Adagrad学习率递减太多的问题,能够更快地收敛。
6.Adam
综合性学习方法,可以看成RMSprop加上动量的学习方法。