【优化算法】3. 学习率优化算法

律动的波纹

已于 2023-04-20 15:53:36 修改

阅读量2k

点赞数

分类专栏：深度学习机器学习文章标签：大数据深度学习

于 2022-04-24 19:22:59 首次发布

本文链接：https://blog.csdn.net/weixin_44177216/article/details/124389823

版权

学习率在深度学习优化中至关重要，太小会导致慢速收敛，太大可能导致发散。本文介绍了包括牛顿法、AdaGrad、Adadelta、RMSProp、Adam和Yogi等学习率自适应算法，探讨了它们的原理、优缺点，尤其在处理稀疏特征和动态调整学习率方面的策略。

摘要由CSDN通过智能技术生成

概论

学习率(learning rate)决定目标函数能否收敛到最小值，和何时收敛到最小值。如果直接设定一个学习率η，是一个很棘手的问题。学习率η设定太小，算法就会进展缓慢，设定太大，就会震荡或者发散。针对这样的问题，就产生了学习率自适应算法。

基础

牛顿法

函数 $\mathbb{R}^d \rightarrow \mathbb{R}$ 的泰勒展开式，事实上我们可以把它写成

$f(\mathbf{x} + \boldsymbol{\epsilon}) = f(\mathbf{x}) + \boldsymbol{\epsilon}^\top \nabla f(\mathbf{x}) + \frac{1}{2} \boldsymbol{\epsilon}^\top \nabla^2 f(\mathbf{x}) \boldsymbol{\epsilon} + \mathcal{O}(\|\boldsymbol{\epsilon}\|^3).$

为了避免繁琐的符号，我们将 $\mathbf{H} \stackrel{\mathrm{def}}{=} \nabla^2 f(\mathbf{x})$ 定义为 $f$ 的Hessian，是 $\times d$ 矩阵。当 $d$ 的值很小且问题很简单时， $\mathbf{H}$ 很容易计算。但是对于深度神经网络而言，考虑到 $\mathbf{H}$ 可能非常大， $\mathcal{O}(d^2)$ 个条目的存储代价会很高，
此外通过反向传播进行计算可能雪上加霜。然而，我们姑且先忽略这些考量，看看会得到什么算法。

毕竟， $f$ 的最小值满足 $\nabla f = 0$ 。遵循的微积分规则，通过取 $\boldsymbol{\epsilon}$ 对 $f$ 的导数，再忽略不重要的高阶项，我们便得到

$\nabla f(\mathbf{x}) + \mathbf{H} \boldsymbol{\epsilon} = 0 \text{ and hence } \boldsymbol{\epsilon} = -\mathbf{H}^{-1} \nabla f(\mathbf{x}).$

也就是说，作为优化问题的一部分，我们需要将Hessian矩阵 $\mathbf{H}$ 求逆。

举一个简单的例子，对于 $\frac{1}{2} x^2$ ，我们有 $\nabla f(x) = x$ 和 $\mathbf{H} = 1$ 。因此，对于任何 $x$ ，我们可以获得 $\epsilon = -x$ 。换言之，单单一步就足以完美地收敛，而无须任何调整。我们在这里比较幸运：泰勒展开式是确切的，因为 $f(x+\epsilon)= \frac{1}{2} x^2 + \epsilon x + \frac{1}{2} \epsilon^2$ 。

稀疏特征的学习率

在深度学习训练中，为了获得良好的准确性，我们希望在训练过程中降低学习率，速度通常是为 $\mathcal{O}(t^{-\frac{1}{2}})$ 或更低。这种情况下，我们在训练过程中就会遇到以下情况：

常用特征的参数迅速收敛的最佳值，学习率相对来说降低太慢。
稀疏特征因为缺乏足够的观测数据收敛很慢，学习率对其来说降低太快。

为了解决这个问题，我们可以通过记录特征次数来调整对应的学习率。我们使用 $\eta_i = \frac{\eta_0}{\sqrt{s(i, t) + c}}$ 的学习率，而不是 $\eta = \frac{\eta_0}{\sqrt{t + c}}$ 。 $s (i, t)$ 计下了我们截至 $t$ 时观察到功能 $i$ 的次数。