第二周：优化算法

最新推荐文章于 2024-04-21 23:45:05 发布

SuperFeHanHan

最新推荐文章于 2024-04-21 23:45:05 发布

阅读量932

点赞数

分类专栏：改善深层神经网络(Andrew Ng) 文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/weixin_44495738/article/details/107692928

版权

改善深层神经网络(Andrew Ng) 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文是改善深层神经网络的笔记。

本章中还存在的问题：指数加权平均的偏差修正的原理？

2.0 重点

本章的主旨在于学习一些可以提高训练速度的算法，大部分都是基于提高学习率。
在Mini-batch之后，我们学习了指数加权平均，之后我们学习了Momentum、RMSprop和两者结合的Adam，最后我们研究了学习率衰减。

2.1 Mini-batch 梯度下降法

为了避免一次将所有的样本全部喂进去太慢。我们引入Mini-batch：

记： $X=[x^{(1)},x^{(2)},\dots,x^{(1000)}|x^{(1001)},x^{(1002)},\dots,x^{(2000)}|\dots]$
$Y=[y^{(1)},y^{(2)},\dots,y^{(1000)}|x^{(1001)},y^{(1002)},\dots,y^{(2000)}|\dots]$
记 $x^{\{t\}}$ $y^{\{t\}}$ 第t个Mini-batch。这里我们不妨取1000个样本作为一个Batch。因此，我们有

$X=[x^{\{1\}}|x^{\{2\}}|\dots|x^{\{5000\}}]$

$Y=[y^{\{1\}}|y^{\{2\}}|\dots|y^{\{5000\}}]$

因此，对于Mini-Batch的训练过程为

2.2 理解Mini-batch梯度下降法

Batch和Mini-batch在Cost图像上的区别

如果我们每次训练都跑完所有的数据，则CostFunction里面考虑了所有的数据，所以通过调节 $w$ 它的函数值一定随着每代都下降。
但如果我们使用的MiniBatch，则我们此次下降的方向可能与下次下降的方向不同，因此会整Cost的值会振动。

Mini-Batch大小的选择

$m\leq2000$ ：数据少，使用Batch Gradient Descent
一般选用64,128,256,516
确保minibatch fit in CPU/GPU memory❓❓

2.3 指数加权平均（Exponentially Weighted Avg）

为了介绍更好的梯度下降算法

例子：London的温度
- 记 $\theta_t$ 为第t天的温度。
  $V_t=\beta V_{t-1}+(1-\beta)\theta_t$
当 $\beta$ 越大，之前的样本衰减越慢，即延迟效果越明显，曲线更加平滑。
当 $\beta$ 越小，越接近原始数据 $\theta_t$

Python模拟：

# 比较不同的beta值的影响
theta = [np.sqrt(i)+np.random.randn() for i in range(250)]

# vt = beta*v(t-1)+(1-beta)theta(t)
beta={0.5,0.9}
plt.figure(figsize=(10,6))
plt.plot(theta,label="Raw Data")
for beta in beta:
    v=[theta[0]]
    for i in range(1,len(theta)):
        v.append(beta*v[-1]+(1-beta)*theta[i])
    plt.plot(v,label=f"beta = {beta}")
plt.grid()
plt.legend()
plt.show()

在这里插入图片描述

2.4 ⚠️理解指数加权平均

Recap:
$v_t=\beta v_{t-1}+(1-\beta)\theta_t$
其中 $\theta_t$ 是t时刻的样本。
例子:
$v_0 = \theta_0$
$v_1 = \beta \theta_0+(1-\beta)\theta_1$
$v_2 = \beta^2 \theta_0+ \beta(1-\beta)\theta_1 + (1-\beta)\theta_2$
…
$v_n = \beta^n \theta_0+ \beta^{n-1}(1-\beta)\theta_1 + \dots + (1-\beta)\theta_n$
如何理解参数 $\beta$ ?
我们认为 $\beta$ 反映了均值考虑了多少天的数据:
$天数=log_{\beta}(\frac{1}{e})$
例如，如果 $\beta=0.9$ 则 $天数=log_{0.9}(\frac{1}{e})=9.49\approx10天$
这个结论的来源：
$v_n = (1-\beta)\theta_n+(1-\beta)\beta\theta_{n-1}+(1-\beta)\beta^2\theta_{n-2}+\dots+\beta^{n-1}(1-\beta)\theta_1+\beta^n \theta_0$

我们认为，如果参数比原来的 $\frac{1}{e}$ 还要小，我们就可以忽略它。

怎么实现？

一般我们把第一项设置为0, $v:=\beta v+(1-\beta)\theta_n$
一般我们不用数组存储，我们只要保存一个数字即可。从而比较节省空间。

与直接取平均的区别？

从计算时间和空间上来讲都更优一些。

2.5 指数加权平均的偏差修正

如果 $v_0=0$ 则曲线会达到正常值会有一定的偏差：

理论值	40	49	45
预测值（无修正）	0.8	1.764	2.62
预测值（带修正）	40	1014.6	-

无修正下的预测：
取 $\beta=0.98$
$v_0=0$
$v_1=\beta v_0 +(1-\beta) \theta_1=0+(1-0.98)*40=0.8$
$v_2=0.98*0.8+0.02*49=1.764$
$v_3=0.98*1.764+0.02*45=1.764$

有修正下的预测：
$v_0=0$
$v_1=(\beta v_0 +(1-\beta) \theta_1)/(1-\beta^1)=\frac{0.8}{1-0.98^1}=40$
$v_2=\frac{0.98*40+0.02*49}{1-0.98^2}=1014.6$

修正方法：
对分母进行修正： $v_t=\frac{\beta v_{t-1}+(1-\beta)\theta_t}{1-\beta^t}$
⚠️ 修正之后对于 $\beta$ 的取值比较敏感, $\beta$ 的值不应该太大，避免不收敛:

2.6 ⚠️ 动量梯度下降法(Momentum)

为了选择较大的学习率(太大有可能发散)，并且避免震动的情况。

原理

这里我们又引入了一个超参数 $\beta$ ，一般取0.9。这意味着，过了前10个数据，我们就可以获得正常的数据。

梯度计算
首先通过Mini-batch计算出dw和db。
$\beta vdw + (1-\beta)dw$

$\beta vdb + (1-\beta)db$

参数更新

$W-\alpha\times vdw$

$b-\alpha\times vdb$

直观解释：

解释一：
鉴于我们每次计算的时候都考虑到了前面的多组数据，因此，一些不必要的震动将会被抵消。
解释二：
梯度计算中的 $v d w$ 可以看成是一个速度，
$\beta vdw + (1-\beta)dw$
类比物理里面的公式 $v(t)=v_{t-1}+a\Delta t$ ，可以把 $d w$ 看成小球的加速度（因为它累计了之前的速度等数据）。因此，正因为小球有惯性，所以不容易改变方向。

2.7 RMSprop (Root Mean Square)

为了可以选择较大的学习率(太大有可能发散)，并且避免震动的情况。

原理

这里我们又引入了一个超参数 $\beta_2$ 。为了避免与Momentum的 $\beta$ 重复。

梯度计算：
首先通过Mini-batch计算出dw和db。
$Sdw:=\beta_2Sdw+(1-\beta_2)dw^2$

$Sdb:=\beta_2Sdb+(1-\beta_2)db^2$

参数更新：
$w:=w-\alpha \frac{dw}{\sqrt{Sdw+\epsilon}}$

$b:=b-\alpha \frac{db}{\sqrt{Sdb+\epsilon}}$

$\epsilon \approx 10^{-8}$ 为了避免分母为0。

直观解释：

如果在b方向上震荡的话，db会很大，从而 $S d b$ 很大。从而对比SGD中给出的参数更新的公式 $b:=b-\alpha db$ 因为RMSprop对db除了一个很大的数字，所以更新的幅度更小一点。从而解决了震荡的问题。
当震动比较平缓的时候，Sdw这种就比较小，更新幅度就比较大。

2.8 Adam优化算法(Adaptive Moment Estimation)

Adam = Momentum + RMSprop

部分超参数经验值：
学习率 $\alpha$
Momentum $\beta_1=0.9$
RMSprop

$\beta_2=0.999$
$\epsilon=10^{-8}$

原理

// 初始化
Vdw = 0, Vdb = 0
Sdw = 0, Sdb = 0

对于每个MiniBatch t:

// 反向传播
计算出dw,db。

// “Momentum”
$\beta_1 Vdw + (1-\beta_1)dw,Vdb := \beta_1 Vdb + (1-\beta_1)db$

// “RMSprop”
$\beta_2 Sdw + (1-\beta_2)dw^2,Sdb := \beta_2 Sdb + (1-\beta_2)db^2$

// 对于偏差进行修正
$Vdw^{corrected} := \frac{Vdw}{1-\beta_1^t},Vdb^{corrected} := \frac{Vdb}{1-\beta_1^t}$

$Sdw^{corrected} := \frac{Sdw}{1-\beta_2^t},Sdb^{corrected} := \frac{Sdb}{1-\beta_2^t}$

// 更新参数

$w:=w-\alpha \frac{Vdw^{corrected}}{\sqrt{Sdw^{corrected}+\epsilon}}$

$b:=b-\alpha \frac{Vdb^{corrected}}{\sqrt{Sdb^{corrected}+\epsilon}}$

2.9 学习率衰减

为什么要学习率衰减？
在学习初期，我们离极值点比较远，所以我们可以使用较大的学习率。但随着我们靠近极值点，我们需要减少学习率以避免震动。

具体实现

$\alpha=\frac{1}{1+DecayRate*EpochNum}*\alpha_0$
Exponentially Decay
$\alpha=0.95^{EpochNum}\alpha_0$
$\alpha=\frac{k}{\sqrt{EpochNum}}\alpha_0$
Discrete StairCase
每过一代变化一下

2.10 局部最优的问题

实际上导数为0的点，大多为鞍点。所以不太可能陷入局部鞍点。
平缓段会延缓学习速率。

第二周测试重点：

下面的图中
【1】是普通的SGD
【2】是 $\beta$ 比较小的Momentum
【3】是 $\beta$ 比较大的Momentum

SuperFeHanHan

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
第二周：优化算法

第二周：优化算法2.0 重点2.1 Mini-batch 梯度下降法2.2 理解Mini-batch梯度下降法Batch和Mini-batch在Cost图像上的区别分类Mini-Batch大小的选择2.3 指数加权平均（Exponentially Weighted Avg）Python模拟：2.4 ⚠️理解指数加权平均怎么实现？与直接取平均的区别？2.5 指数加权平均的偏差修正2.6 ⚠️ 动量梯度下降法(Momentum)原理直观解释：2.7 RMSprop (Root Mean Square)原理直观解
复制链接

扫一扫

专栏目录