Pytorch Note15 优化算法1 梯度下降(Gradient descent varients)
文章目录
全部笔记的汇总贴: Pytorch Note 快乐星球
优化算法1 梯度下降(Gradient descent varients)
梯度下降有三种变形,主要的不同就是在于我们使用多少数据来计算我们的目标函数的梯度。我们可以根据我们的数据量,去 trade off 我们的参数更新的准确率和运行时间。
1.Batch Gradient Descent (BGD)
批量梯度下降(BGD),会采用整个训练集的数据来计算cost function 对参数的梯度:
由于我们需要计算整个数据集的梯度以仅执行一次更新,因此批量梯度下降可能非常慢,并且对于数据很大的数据集来说是难以处理的。 批量梯度下降也不允许我们实时更新我们的模型,即投入新数据实时更新模型。
for i