梯度下降法作为机器学习中较常使用的优化算法,其有着三种不同的形式:批量梯度下降(Batch Gradient Descent)、随机梯度下降(Stochastic Gradient Descent)以及小批量梯度下降(Mini-Batch Gradient Descent)。
批梯度下降:
每一次迭代时使用所有样本来进行梯度的更新。
计算量开销大,计算速度慢,不支持在线学习。
随机梯度下降:
每次迭代使用一个样本来对参数进行更新。使得训练速度加快。
速度比较快,但是收敛性能不太好,可能在最优点附近晃来晃去。
小批量梯度下降:
把数据分为若干个批,按批来更新参数,一个批中的一组数据共同决定了本次梯度的方向,下降起来就不容易跑偏,减少了随机性。