参考博文和图片来源 : Epoch vs Batch Size vs Iterations
1 前导知识
1.1 梯度下降和学习率
梯度下降算法是一种用于机器学习的迭代优化算法,用于寻找最佳结果(损失函数曲线的最小值)。
- 梯度(坡度)是指斜坡的倾斜度或倾斜度。
- Descent:下降。
该算法是迭代的(iterative),意味着我们需要多次进行多次计算才能得到最优的结果。
梯度下降法有一个参数叫做学习率(learning rate)。
如上图(左所示),一开始成本/损失函数(cost function)上的point下降的较快,说明学习率较大,步长大,随着该point的下降变慢,学习率逐渐减小,步长变慢。
梯度下降算法就是为了找到损失函数的最小值
1.2 为什么需要batchsize/epoch/iteration
当数据太大的时候,我们不能一次把所有的数据传递给计算机。因此我们需要将数据分成更小的大小,并将其一个接一个地交给我们的计算机,并在每一步结束时更新神经网络的权重。
2 Epoch
One Epoch is when an ENTIRE dataset is passed forward and backward through the neural network only ONCE.
由于一个epoch太大,不能一次输入到计算机中,我