Deep learning II - II Optimization algorithms - learning rate decay 学习速率衰减

最新推荐文章于 2023-07-09 16:23:52 发布

dqhl1990

最新推荐文章于 2023-07-09 16:23:52 发布

阅读量290

点赞数

分类专栏：算法 deep learning 深度学习文章标签： learning rate decay 学习速率衰减

34 篇文章 4 订阅

订阅专栏

29 篇文章 1 订阅

订阅专栏

29 篇文章 1 订阅

订阅专栏

这里写图片描述

对于mini-batch gradient descent，其梯度下降可能会围绕最优点附近徘徊，但是由于learning rate不变，可能不会进一步靠近最优点（蓝色路径）
如果learning rate会随着学习的深入不断衰减，那么上述情况会得到改善，最终的结果和更加靠近最优点（绿色路径）

方法一
$1 e p o c h = 1 p a s s t h r o u g h d a t a$ $1\ epoch = 1\ pass\ through\ data$
$α = 1 1 + d e c a y R a t e * e p o c h N u m α 0$ $\alpha = \frac{1}{1+decayRate*epochNum}\alpha_0$

方法二 (exponentially decay)
$α = 0.95 e p o c h N u m α 0$ $\alpha = 0.95^{epochNum}\alpha_0$
方法三
$α = k e p o c h N u m - - - - - - - - - \sqrt α 0$ $\alpha = \frac{k}{\sqrt{epochNum}}\alpha_0$
$α = k t \sqrt α 0$ $\alpha = \frac{k}{\sqrt{t}}\alpha_0\quad$
t <script type="math/tex" id="MathJax-Element-6">t</script>是mini-batch的次数。
方法四（discrete staircase）
方法五（manual decay ）