【Day4】optimization

最新推荐文章于 2024-08-23 22:17:33 发布

weixin_45965693

最新推荐文章于 2024-08-23 22:17:33 发布

阅读量250

点赞数

分类专栏：深度学习文章标签：机器学习人工智能深度学习

本文链接：https://blog.csdn.net/weixin_45965693/article/details/125690689

版权

深度学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

gd-sgd

梯度下降（gradien descent）
以下的近似：

$\epsilon) \approx f(x) + \epsilon f'(x) .$

接下来，找到一个常数 $\eta > 0$ ，使得 $\left|\eta f'(x)\right|$ 足够小，那么可以将 $\epsilon$ 替换为 $-\eta f'(x)$ 并得到

$\eta f'(x)) \approx f(x) - \eta f'(x)^2.$
学习率 $\eta$ 太大，overshoot

随机梯度下降（stochastic gradient descent）
在深度学习里，目标函数通常是训练数据集中有关各个样本的损失函数的平均。那么目标函数定义为

$f(\boldsymbol{x}) = \frac{1}{n} \sum_{i = 1}^n f_i(\boldsymbol{x}).$

目标函数在 $\boldsymbol{x}$ 处的梯度计算为

$\nabla f(\boldsymbol{x}) = \frac{1}{n} \sum_{i = 1}^n \nabla f_i(\boldsymbol{x}).$

如果使用梯度下降，每次自变量迭代的计算开销为 $\mathcal{O}(n)$ ，它随着 $n$ 线性增长。因此，当训练数据样本数很大时，梯度下降每次迭代的计算开销很高。

随机梯度下降（stochastic gradient descent，SGD）减少了每次迭代的计算开销。在随机梯度下降的每次迭代中，我们随机均匀采样的一个样本索引 $i\in\{1,\ldots,n\}$ ，并计算梯度 $\nabla f_i(\boldsymbol{x})$ 来迭代 $\boldsymbol{x}$ ：

$\boldsymbol{x} \leftarrow \boldsymbol{x} - \eta \nabla f_i(\boldsymbol{x}).$

momentum动量法

解决：水平方向和竖直方向梯度相差太大，不容易接近最优解
方法：依赖指数加权移动平均使得自变量的更新方向更加一致，从而降低发散的可能。

在时间步 $0$ ，动量法创建速度变量 $\boldsymbol{v}_0$ ，并将其元素初始化成0。在时间步 $t > 0$ ，动量法对每次迭代的步骤做如下修改：
$\begin{aligned} \boldsymbol{v}_t &\leftarrow \gamma \boldsymbol{v}_{t-1} + \eta_t \boldsymbol{g}_t, \\ \boldsymbol{x}_t &\leftarrow \boldsymbol{x}_{t-1} - \boldsymbol{v}_t, \end{aligned}$
我们对动量法的速度变量做变形：
$\boldsymbol{v}_t \leftarrow \gamma \boldsymbol{v}_{t-1} + (1 - \gamma) \left(\frac{\eta_t}{1 - \gamma} \boldsymbol{g}_t\right).$
速度变量 $\boldsymbol{v}_t$ 实际上对序列 $\{\eta_{t-i}\boldsymbol{g}_{t-i} /(1-\gamma):i=0,\ldots,1/(1-\gamma)-1\}$ 做了指数加权移动平均。

相比于小批量随机梯度下降，动量法在每个时间步的自变量更新量近似于将前者对应的最近 $1/(1-\gamma)$ 个时间步的更新量做了指数加权移动平均后再除以 $1-\gamma$ 。所以，在动量法中，自变量在各个方向上的移动幅度不仅取决于当前梯度，还取决于过去的各个梯度在各个方向上是否一致。在本节之前示例的优化问题中，所有梯度在水平方向上为正（向右），而在竖直方向上时正（向上）时负（向下）。这样，我们就可以使用较大的学习率，从而使自变量向最优解更快移动。

其中，动量超参数 $\gamma$ 满足 $\leq \gamma < 1$ 。当 $\gamma=0$ 时，动量法等价于小批量随机梯度下降。
指数加权移动平均（exponentially weighted moving average）
$y_t = \gamma y_{t-1} + (1-\gamma) x_t.$

我们可以对 $y_t$ 展开：

$\begin{aligned} y_t &= (1-\gamma) x_t + \gamma y_{t-1}\\ &= (1-\gamma)x_t + (1-\gamma) \cdot \gamma x_{t-1} + \gamma^2y_{t-2}\\ &= (1-\gamma)x_t + (1-\gamma) \cdot \gamma x_{t-1} + (1-\gamma) \cdot \gamma^2x_{t-2} + \gamma^3y_{t-3}\\ &\ldots \end{aligned}$

令 $1/(1-\gamma)$ ，那么 $\left(1-1/n\right)^n = \gamma^{1/(1-\gamma)}$ 。因为

$\lim_{n \rightarrow \infty} \left(1-\frac{1}{n}\right)^n = \exp(-1) \approx 0.3679,$

所以当 $\gamma \rightarrow 1$ 时， $\gamma^{1/(1-\gamma)}=\exp(-1)$ ，如 $0.95^{20} \approx \exp(-1)$ 。如果把 $\exp(-1)$ 当作一个比较小的数，我们可以在近似中忽略所有含 $\gamma^{1/(1-\gamma)}$ 和比 $\gamma^{1/(1-\gamma)}$ 更高阶的系数的项。例如，当 $\gamma=0.95$ 时，

$y_t \approx 0.05 \sum_{i=0}^{19} 0.95^i x_{t-i}.$

AdaGrad

方法：根据自变量在每个维度的梯度值的大小来调整各个维度上的学习率，从而避免统一的学习率难以适应所有维度的问题。
思路：状态变量 $\boldsymbol{s}_t$ 是截至时间步 $t$ 所有小批量随机梯度 $\boldsymbol{g}_t$ 按元素平方和。
问题：不断迭代，学习率不断下降，后期可能仍为找到有用解。

AdaGrad算法会使用一个小批量随机梯度 $\boldsymbol{g}_t$ 按元素平方的累加变量 $\boldsymbol{s}_t$ ：

$\boldsymbol{s}_t \leftarrow \boldsymbol{s}_{t-1} + \boldsymbol{g}_t \odot \boldsymbol{g}_t,$

接着，我们将目标函数自变量中每个元素的学习率通过按元素运算重新调整一下：

$\boldsymbol{x}_t \leftarrow \boldsymbol{x}_{t-1} - \frac{\eta}{\sqrt{\boldsymbol{s}_t + \epsilon}} \odot \boldsymbol{g}_t,$

其中 $\eta$ 是学习率， $\epsilon$ 是为了维持数值稳定性而添加的常数，如 $10^{-6}$ 。这里开方、除法和乘法的运算都是按元素运算的。这些按元素运算使得目标函数自变量中每个元素都分别拥有自己的学习率。

RMSProp

思路：将这些梯度按元素平方做指数加权移动平均。具体来说，给定超参数 $\leq \gamma < 1$ ，RMSProp算法在时间步 $t > 0$ 计算

$\boldsymbol{s}_t \leftarrow \gamma \boldsymbol{s}_{t-1} + (1 - \gamma) \boldsymbol{g}_t \odot \boldsymbol{g}_t.$

和AdaGrad算法一样，RMSProp算法将目标函数自变量中每个元素的学习率通过按元素运算重新调整，然后更新自变量

$\boldsymbol{x}_t \leftarrow \boldsymbol{x}_{t-1} - \frac{\eta}{\sqrt{\boldsymbol{s}_t + \epsilon}} \odot \boldsymbol{g}_t,$

AdaDelta

有意思的是，AdaDelta算法没有学习率这一超参数。
用来两个EMA。
在这里插入图片描述

Adam

在Adam算法中，我们对变量 $\boldsymbol{v}_t$ 和 $\boldsymbol{s}_t$ 均作偏差修正：

$\hat{\boldsymbol{v}}_t \leftarrow \frac{\boldsymbol{v}_t}{1 - \beta_1^t},$

$\hat{\boldsymbol{s}}_t \leftarrow \frac{\boldsymbol{s}_t}{1 - \beta_2^t}.$

$\boldsymbol{v}_t$ 即小批量随机梯度 $\boldsymbol{g}_t$ 的指数加权移动平均：

$\boldsymbol{v}_t \leftarrow \beta_1 \boldsymbol{v}_{t-1} + (1 - \beta_1) \boldsymbol{g}_t.$

和RMSProp算法中一样，给定超参数 $\leq \beta_2 < 1$ （算法作者建议设为0.999），
将小批量随机梯度按元素平方后的项 $\boldsymbol{g}_t \odot \boldsymbol{g}_t$ 做指数加权移动平均得到 $\boldsymbol{s}_t$ ：

$\boldsymbol{s}_t \leftarrow \beta_2 \boldsymbol{s}_{t-1} + (1 - \beta_2) \boldsymbol{g}_t \odot \boldsymbol{g}_t.$

由于我们将 $\boldsymbol{v}_0$ 和 $\boldsymbol{s}_0$ 中的元素都初始化为0，
在时间步 $t$ 我们得到 $\boldsymbol{v}_t = (1-\beta_1) \sum_{i=1}^t \beta_1^{t-i} \boldsymbol{g}_i$ 。将过去各时间步小批量随机梯度的权值相加，得到 $(1-\beta_1) \sum_{i=1}^t \beta_1^{t-i} = 1 - \beta_1^t$ 。需要注意的是，当 $t$ 较小时，过去各时间步小批量随机梯度权值之和会较小。例如，当 $\beta_1 = 0.9$ 时， $\boldsymbol{v}_1 = 0.1\boldsymbol{g}_1$ 。为了消除这样的影响，对于任意时间步 $t$ ，我们可以将 $\boldsymbol{v}_t$ 再除以 $\beta_1^t$ ，从而使过去各时间步小批量随机梯度权值之和为1。这也叫作偏差修正。

在这里插入图片描述

weixin_45965693

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【Day4】optimization

https://www.bilibili.com/video/BV18h411r7Z7?p=6&spm_id_from=pageDriver&vd_source=6967bd2a7c6f1367dc3a18fd8602177a
复制链接

扫一扫

专栏目录