在训练刚开始,所有的参数都是随机得到的和最终的训练结果之间的距离很大。使用一个很大的学习率训练会导致数值不稳定。所以会在开始使用一个小的学习率,使其逐渐接近解空间的大致位置,这此阶段学习率增加到初始设置的值。随后为了更加接近目标解,学习率会逐渐降低。
为什么学习率要逐渐增加再减少
于 2022-12-16 22:09:28 首次发布
在训练刚开始,所有的参数都是随机得到的和最终的训练结果之间的距离很大。使用一个很大的学习率训练会导致数值不稳定。所以会在开始使用一个小的学习率,使其逐渐接近解空间的大致位置,这此阶段学习率增加到初始设置的值。随后为了更加接近目标解,学习率会逐渐降低。