一、 Momentum
如下图图 a 所示,当一个维度比另一个维度下降地明显更加急促时(经常是局部最优点),朴素 SGD 容易存在收敛极慢的问题。
momentum(动量)的引入可以直观地较好处理这个问题,其在计算当前时刻的更新向量vt 时,引入了上一次更新向量 vt-1,具体如下:
γ一般为0.9
二、Adagrad
注意是逐个元素应用,所以可以使每个参数的学习率不同
从上图可以看出,随着迭代的增加,我们的学习率是在逐渐变小的,这在“直观上”是正确的:
当我们越接近最优解时,函数的“坡度”会越平缓,我们也必须走的更慢来保证不会穿过最优解。
AdaGrad的效果是:
在参数空间中更为平缓的倾斜方向会取得更大的