一、 Momentum 如下图图 a 所示,当一个维度比另一个维度下降地明显更加急促时(经常是局部最优点),朴素 SGD 容易存在收敛极慢的问题。 momentum(动量)的引入可以直观地较好处理这个问题,其在计算当前时刻的更新向量vt 时,引入了上一次更新向量 vt-1,具体如下: γ一般为0.9 二、Adagrad 注意是逐个元素应用,所以可以使每个参数的学习率不同 从上图可以看出,随着迭代的增加,我们的学习率是在逐渐变小的,这在“直观上”是正确的: