台大李宏毅Machine Learning学习笔记（四）——梯度下降

最新推荐文章于 2024-09-16 21:06:28 发布

既往不恋未来不迎

最新推荐文章于 2024-09-16 21:06:28 发布

阅读量176

点赞数

分类专栏：李宏毅机器学习笔记文章标签：李宏毅梯度下降机器学习 AdaGrad算法随机梯度下降

本文链接：https://blog.csdn.net/weixin_45416911/article/details/97129847

版权

李宏毅同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

机器学习笔记

5 篇文章 0 订阅

订阅专栏

回顾笔记二中求参数 $w, b$ 用的梯度下降法。在此，我们讲几个问题。

小心地调节learning rate

如果learning rate太小，步伐太短，会需要很长时间才能到达极小值点，而如果步伐太大，会出现一直在极小值点附近振荡的情况，从而无法真正到达极小值点，甚至有可能会偏离极小值点，出现发散的情况，如图所示：

图1 当参数多于两个的时候，不能够直观的在图上显示出来运动的轨迹，但可通过观察损失函数的大小变化来感知。如果我们自己调的话，会非常麻烦，毕竟数字那么多，这时可以让计算机自动调节步长。

图2 自动调节步长通常在开始的时候，离最优解很远，我们会设置比较大的步长，以尽快靠近目标点，然后减小学习率。最简单的可以设置成迭代次数的函数

\eta^t=\frac{\eta}{\sqrt t+1}

。

图3 Adagrad法

对于不同的参数使用Adagrad法设置不同的学习率会更好，具体做法是对于每一次迭代，都把前面计算的所有偏导数的均方根加入进去。比如说对 $w$ 而言
$w^1=w^0-\frac{\eta}{(g^0)^2}$ ，其中， $g^0=\frac{\partial L}{\partial w}|_{w=w^0}$ ；
$w^2=w^1-{\eta}/\sqrt{[(g^0)^2+(g^1)^2]}$ ，其中， $g^0=\frac{\partial L}{\partial w}|_{w=w^0},g^1=\frac{\partial L}{\partial w}|_{w=w^1}$
$\cdots\cdots$
$w^{t+1}=w^t-{\eta}/\sqrt{\sum\limits^t_{i=0}(g^i)^2}$ ，其中， $g^0=\frac{\partial L}{\partial w}|_{w=w^0}$ $\cdots\cdots$ $g^t=\frac{\partial L}{\partial w}|_{w=w^t}$
当然，还有更多更好的方法，Adagrad法是比较简单实用的一种，实际上，许多设置参数学习率的方法是以Adagrad法为基础的。

图4 一个问题在此，我们考虑一个问题：再上图中可以看出，如果求出的导数越大，步长越大（显而易见的），但是在Adagrad法中，导数越大，步长越小。这是为什么呢？一种直观地解释是Adagrad法强调的就是某一步的这种反差效果，如图。

图5 直观解释后面用什么二次导解释的听不懂（哪位懂的小伙伴请赐教），能理解这个方法，为方便大家学习，在后面脚注里附上了论文链接，详细了推导了该方法 ¹。
随着优化过程的进行，对于已经下降很多的变量，则减缓学习率，对于还没怎么下降的变量，则保持一个较大的学习率。AdaGrad的缺点是虽然不同变量有了各自的学习率，但是初始的全局学习率还是需要手工指定。如果全局学习率过大，优化同样不稳定；而如果全局学习率过小，因为AdaGrad的特性，随着优化的进行，学习率会越来越小，很可能还没有到极值就停滞不前了。

随机梯度下降（Stochastic Gradient Descent,SGD）图6 SGD

上面讨论的梯度下降算法每一次更新参数都将所有的训练集数据用上了，但是这样会使训练时间延长，所以提出了随机梯度下降算法，即每次随机选取一个训练数据，以此来对参数进行更新，SGD以震荡的方式趋向于最小值。

图7 SGD比梯度下降快

特征缩放

假设预测宝可梦的 $c p$ 值的函数为 $y=b+w_1\cdot x_1+w_2\cdot x_2$ 当 $x_1,x_2$ 的分布相差很大的时候，比如 $x_1$ 在 $1,2,\cdots\cdots$ 附近，而 $x_2$ 在 $100,200,\cdots\cdots$ 附近的时候，如下图：