SGD算法 随机梯度下降算法
优化算法的根本在于 w +=△w,每一种优化算法的区别在于△w的计算。
SGD算法的公式为:
其中η为学习率,J’(w) 是损失关于参数的梯度.
momentum算法(动量)
该算法的迭代方法:△xt= -ηgt + ρ△xt-1
相对于原来的SGD,该算法加入了动量这个因素。
AdaGrad算法
RMSProp算法
更新公式:
gt是梯度β2是衰减参数
RMSProp学习优化算法和AdaGrad算法的区别在于衰减参数
Adam学习优化算法 是将RMSProp算法和momentum算法结合