详细了解理想的学习速率。
学习率的优化:
学习率为0.1 的情况
学习率为1的情况
练习 2
您可以使用更高的学习速率更快地到达最低点吗?将学习速率设为 1,然后不断按“STEP”(步)按钮,直到梯度下降法到达最低点。这次走了多少步?
答案练习 3
如果采用更大的学习速率会怎么样?重置该图,将学习速率设为 4,然后尝试到达损失曲线的最低点。这次发生了什么情况?
答案何为最优,1.6的情况:
该数据的“金发姑娘般刚刚好”的学习速率为 1.6,1 步就能到达最低点。
最后说点术语:
lr : 学习率
loss :损失
acc: 准确度
epoch、 iteration和batchsize,这三个的区别:
( 1)batchsize:批大小。在深度学习中,一般采用SGD训练,即每次训练在训练集中取batchsize个样本训练;
(2)iteration:1个iteration等于使用batchsize个样本训练一次;
(3)epoch:1个epoch等于使用训练集中的全部样本训练一次;
举个例子,训练集有1000个样本,batchsize=10,那么:
训练完整个样本集需要:
100次iteration,1次epoch。