Datawhale X 李宏毅苹果书 AI夏令营: task2

最新推荐文章于 2024-09-02 19:40:12 发布

新面孔619

最新推荐文章于 2024-09-02 19:40:12 发布

阅读量831

点赞数 10

文章标签：人工智能 python 机器学习深度学习

本文链接：https://blog.csdn.net/wwj619wwj/article/details/141760069

版权

Adaptive Learning rate

请添加图片描述

损失越来越小，直到稳定，意味着梯度也会很小，但是有时并没有，梯度保持在一个范围震荡。

请添加图片描述
可能就是在一个Sharp minima旁边(山谷)，学习率相对太大，不能正常更新进入Local minima了，而梯度却无法下降，就是Loss却保持稳定了。

如果一个Error Surface中，横轴梯度很小，纵轴梯度很大：

学习率很大：就会一直在纵轴方向震荡，而横轴方向几乎不动，很难到临界点。
学习率很小：就会步长很短，难以靠近Local minima

请添加图片描述

所以，不同的地方需要不同的学习率

AdaGrad(Adaptive Gradient)

AdaGrad能够根据梯度大小调整学习率：

梯度大 $\implies$ 学习率减小
梯度小 $\implies$ 学习率增大

RMS(Root Mean Square)

梯度下降更新某个参数 $\theta_i$ 的过程为：
$\theta_i^{t+1} \leftarrow \theta_i^t - \eta g_i^t \tag{3.14}$

$\theta_i^t$ 在第 $t$ 个迭代的值域中在第 $t$ 个迭代参数 $i$ 算出来的梯度

$g_i^t = \frac{\partial L}{\partial \theta_i} \Bigg|_{\theta = \theta^t} \tag{3.15}$

$g_i^t$ 代表在第 $t$ 迭代时，参数 $\theta_i$ 对损失 $L$ 的偏导，学习率 $\eta$ 是固定的。

现在要有一个随着参数决定动态化的学习率，即把原来学习率 $\eta$ 改成 $\frac{\eta}{\sigma_i^t}$ 。

$\theta_i^{t+1} \leftarrow \theta_i^t - \frac{\eta}{\sigma_i^t} g_i^t \tag{3.16}$

$\sigma_i^t$ 的上标 $t$ ，这代表参数 $\sigma_i$ 与 $i$ 相关，不同的参数 $\theta_i$ 的不同。 $\sigma_i^t$ 的下标 $t$ ，这代表参数 $\sigma_i$ 与迭代 $t$ 相关，不同的迭代也会有不同的 $\sigma_i^t$ 。学习率从 $\eta$ 改成 $\frac{\eta}{\sigma_i^t}$ 的时候，学习率就变得参数相关（parameter dependent）。

参数相关的一个常见的类型是算梯度的均方根（root mean square，RMS）。参数的更新过程为：

$\theta_i^{t+1} \leftarrow \theta_i^t - \frac{\eta}{\sigma_i^t} g_i^t \tag{3.17}$

其中 $\theta_i^0$ 是初始化参数。而 $\sigma_i^0$ 的计算过程为：

$\sigma_i^0 = \sqrt{(g_i^0)^2} = |g_i^0| \tag{3.18}$

其中 $g_i^0$ 是梯度。将 $\sigma_i^0$ 的值代入更新的公式可以知道， $g_i^0$ 的值是 $+ 1$ 或 $- 1$ 。第一次在更新参数，从 $\theta_i^0$ 更新到 $\theta_i^1$ 的时候，要么是加上 $\eta$ ，要么是减掉 $\eta$ ，跟梯度的大小无关，这个是第一步的情况。

第二次更新参数过程为：

$\theta_i^{t+1} \leftarrow \theta_i^t - \frac{\eta}{\sigma_i^1} g_i^t \tag{3.19}$

其中 $\sigma_i^1$ 是过去所有计算出来的梯度的平方的平均再开根号，即均方根，如式(3.20)所示：

$\sigma_i^1 = \sqrt{\frac{1}{2} \left( (g_i^0)^2 + (g_i^1)^2 \right)} \tag{3.20}$

同样的操作反复继续下去，如式(3.21)所示。

$\theta_i^3 \leftarrow \theta_i^2 - \frac{\eta}{\sigma_i^2} g_i^2 \quad \sigma_i^2 = \sqrt{\frac{1}{3} \left( (g_i^0)^2 + (g_i^1)^2 + (g_i^2)^2 \right)} \tag{3.21}$

第 $t + 1$ 次更新参数的时候，即

$\theta_i^{t+1} \leftarrow \theta_i^t - \frac{\eta}{\sigma_i^t} g_i^t \quad \sigma_i^t = \sqrt{\frac{1}{t+1} \sum_{i=0}^t (g_i^t)^2} \tag{3.22}$

$\frac{\eta}{\sigma_i^t}$ 当作是新的学习率来更新参数。

RMSProp(Root Mean Square Propagation)

与RMS大致相同，区别在于增加了一个超参数 $\alpha$ ，可以动态调整。

第二步更新过程为
$\theta_i^2 \leftarrow \theta_i^1 - \frac{\eta}{\sigma_i^1} g_i^1, \quad \sigma_i^1 = \sqrt{\alpha \left( \sigma_i^0 \right)^2 + \left(1 - \alpha\right) \left(g_i^1\right)^2}$

其中 $\alpha < 1$ ，其是一个可以调整的超参数。计算 $\theta_i^1$ 的方法跟 AdaGrad 算均方根不一样，在算均方根的时候，每一个梯度都有同等的重要性，但在 RMSprop 里面，可以自己调整现在的这个梯度的重要性。如果 $\alpha$ 设得小趋近于 $0$ ，代表 $g_i^1$ 相较于之前算出来的梯度而言，比较重要；如果 $\alpha$ 设得大趋近于 $1$ ，代表 $g_i^1$ 比较不重要，之前算出来的梯度比较重要。

同样的过程就反复继续下去，如下：
$\theta_{i+1} \leftarrow \theta_i - \frac{\eta}{\sigma_i^t} g_i^t, \quad \sigma_i^t = \sqrt{\alpha \left( \sigma_i^{t-1} \right)^2 + \left(1 - \alpha\right) \left(g_i^t\right)^2}$

RMSProp 通过 $\alpha$ 可以决定， $g_i^t$ 相较于之前存在于 $\sigma_i^{t-1}$ 里面的 $g_i^1, g_i^2, \ldots, g_i^{t-1}$ 的重要性有多大。如果使用 RMSprop，就可以动态调整 $\sigma_i^t$ 这一项。图 3.26 中黑线是误差表面，球就从 A 走到 B，AB 段的路很平坦， $g$ 很小，更新参数的时候，我们会走比较大的步伐。走动 BC 段后梯度变大了，AdaGrad 反应比较慢，而 RMSprop 会把 $\alpha$ 设小一点，让新的、刚看到的梯度的影响比较大，很快地让 $\sigma_i^t$ 的值变大，很快地让步伐变小，RMSprop 可以很快地“踩刹车”。如果走到 CD 段，CD 段是平坦的地方，可以调整 $\alpha$ ，让其比较看重最近算出来的梯度，梯度一变小， $\sigma_i^t$ 的值就变小了，走的步伐就变大了。

请添加图片描述

Adam(Adaptive moment estimation)

结合RMSProp和Momentum

Learning rate scheduling

加上AdaGrad之后训练依然存在问题，一开始很顺利，但是到横轴方向却发生了“爆炸”。

原因在于 $\sigma^i_t$ 是拿过去的梯度取平均。AB段梯度很大，但是BC段纵轴梯度很小，导致累计的 $\sigma^i_t$ 很小， $\frac{\eta}{\sigma^i_t}$ 很大，步伐就会很大，又到了纵轴梯度大的地方， $\sigma^i_t$ 又变大，步伐也会慢慢变小。请添加图片描述