1、 常见优化器
2、 SGD(batch gradient descent) 随机梯度下降法##
与批量梯度下降法相反,sgd算法每次读入一个数据,就会立即计算cost function的梯度来来更新参数。
3、 Momentum
在每一轮迭代过程中,sgd算法用整个训练集上的数据表计算cost function,并用该梯度对模型参数进行估计。
4、NAG
5、Ada
与批量梯度下降法相反,sgd算法每次读入一个数据,就会立即计算cost function的梯度来来更新参数。
在每一轮迭代过程中,sgd算法用整个训练集上的数据表计算cost function,并用该梯度对模型参数进行估计。