目录
1.mini-batch
2.指数加权平均
3.momentum
4.RMSprop
5.Adam
6.学习率衰减
1.mini-batch
batch gradient descent:
把整个数据集当成一个批次,参数在遍历整个数据集后更新,每一次迭代的时间太长。
mini-batch gradient descent:
把数据集分成若干个批次,参数在遍历一个批次数据后更新,把整个数据集遍历完一次,叫做一个 epoch。
sgd:
把一个样本看成一个批次,参数在训练完每个样本后都更新,失去了向量化操作的意义。
如图,由于mini-batch 的不同批次可能会计算出不同的代价函数,因此会有波动。
mini-batch size的选择
(1)小于2000个样