learning rate decay 学习速率衰减
- 对于mini-batch gradient descent,其梯度下降可能会围绕最优点附近徘徊,但是由于learning rate不变,可能不会进一步靠近最优点(蓝色路径)
- 如果learning rate会随着学习的深入不断衰减,那么上述情况会得到改善,最终的结果和更加靠近最优点(绿色路径)
方法 一
1 epoch=1 pass through data 1 e p o c h = 1 p a s s t h r o u g h d a t a
α=11+decayRate∗epochNumα0 α = 1 1 + d e c a y R a t e ∗ e p o c h N u m α 0
方法 二 (exponentially decay)
α=0.95epochNumα0 α = 0.95 e p o c h N u m α 0
方法 三
α=kepochNum−−−−−−−−−√α0 α = k e p o c h N u m α 0
α=kt√α0 α = k t α 0
t t <script type="math/tex" id="MathJax-Element-6">t</script>是mini-batch的次数。
方法 四 (discrete staircase)
方法 五 (manual decay )