李宏毅2020机器学习【学习笔记】 P5Gradient Descent

_bh

已于 2023-09-04 23:38:19 修改

阅读量531

点赞数 1

分类专栏：机器学习【学习笔记】文章标签：机器学习人工智能

于 2023-08-24 17:46:46 首次发布

本文链接：https://blog.csdn.net/weixin_51330846/article/details/132469301

版权

机器学习【学习笔记】专栏收录该内容

14 篇文章 1 订阅

订阅专栏

引_梯度下降法

从坐标系上看

Gradient Descent 的优化

Tip1：小心地调节 (Learning Rate)

AdaGrad 自适应梯度 (Adaptive Gradient)

“这个分母的意义？”

Tip2：让训练更快！

Stochastic Gradient Descent 随机梯度下降

Tip3：Feature Scaling 特征尺度缩放

是什么？

为什么？

怎么做？

Formal Derivation 正式的推导

泰勒展开

编辑

多参数泰勒展开 Multvariable

Gradient Descent 的局限性

感谢B站up主搬运的课程：

【李宏毅2020机器学习深度学习(完整版)国语】 https://www.bilibili.com/video/BV1JE411g7XF/?share_source=copy_web&vd_source=262e561fe1b31fc2fea4d09d310b466d

引_梯度下降法

假设使用两个“特征参数”，组成一个向量 $\left[ \begin{array}{ccc} \theta_1\\ \theta_2 \end{array} \right ]$ 。

我们随机地选择参数从 $\theta^0$ = $\left[ \begin{array}{ccc} \theta_1^0\\ \theta_2^0 \end{array} \right ]$ 开始，

不断地进行 $\theta ^{\quad\\n+1} = \theta ^n -\eta \nabla L(\theta ^n)$ ，

其中 $\nabla L(\theta ^n)$ 即梯度（对各个参量的导数向量 $\left[ \begin{array}{c} \frac{\partial L(\theta_1)}{\partial \theta_1} \\ \frac{\partial L(\theta_2)}{\partial \theta_2} \end{array} \right ]$ ,

直至求出最终的 $argminL$ ，此即Gradient Descent

从坐标系上看

我们选取的点正不断往梯度的反方向更新

Gradient Descent 的优化

Tip1：小心地调节 $\eta$ (Learning Rate)

过大的 $\eta$ 会导致Loss难以减小（绿色走向）、甚至不减反增（黄色走向）；

过小的 $\eta$ 则使迭代速度过慢。

一种主流又简单的做法——随着迭代次数将 $\eta$ 变小（做得越多越接近结果，须放慢步伐）；
同时，不同的参数情况不同，理应具有不同的 $\eta$ 。

AdaGrad 自适应梯度 (Adaptive Gradient)

对每一个特征参量 $w$

取时变的学习速率 $\eta ^t$ $= \frac{\eta}{\sqrt{\\t+1}}$ ，梯度 $g^t = \frac{\partial L(\theta^t)}{\partial w}$ ( $L(\theta^t)$ 指取其它参数在t次迭代时的值）

并且为 $\eta$ 除上一个参数 $\sigma^t$ ：先前算出的所有微分值的RMS（所有参数的 $\sigma$ 都不同）

代入式中，我们发现式子上下其实可以约简去 $\sqrt{\frac{1}{t+1}}$

最终的 AdaGrad 式子如上所示，相较于普通的 Gradient Descent 就是多了个分母。

“这个分母的意义？”

直觉上的解释：当某次迭代计算出的 $g$ 骤大/骤小时，该因子足以显现 $g^t$ 与过往梯度的反差
以二次函数模型解释：
从某一参数值 $x_0$ 走到最佳值 $-\frac{b}{2a}$ （二次函数顶点）的最佳步长为 $|x_0+\frac{b}{2a}|$ 。
能够发现恰为 |一阶导数 | / 二阶导数。
那么，我们可以看出AdaGrad新增的因子便是
使用一阶导数的样本采用平方和开根的方式对二阶导数的一个估计。