Tensorflow学习八—动量与学习率 momentum 首先看下动量的定义:整个深度学习就是一个梯度更新的问题,在动量加入后问题就变成的一般梯度的更新方向加上一个动量梯度的更新方向的结合。换句话来说就是考虑了历史的一个效应。 举个例子来说: 当step-size=0.003 momentum=0的时候,优化器训练的效果图如下。 当考虑到0.78的历史方向则训练效果如下: