李宏毅机器学习-网络设计的技巧

最新推荐文章于 2022-10-20 00:58:54 发布

Tongsen99

最新推荐文章于 2022-10-20 00:58:54 发布

阅读量309

点赞数

文章标签：机器学习深度学习矩阵

本文链接：https://blog.csdn.net/weixin_51352168/article/details/124911743

版权

文章目录

局部极小值（Local Minima）与鞍点（Saddle Point）

Critical Point：梯度（gradient）为0的点

local minima：局部极小值
如果卡在local minima，那可能就没有路可以走了。
saddle point：鞍点
如果卡在saddle point，saddle point旁边还是有路可以走的。

判断

如何判断？

考察 $\theta$ 附近Loss的梯度→泰勒展开→海塞矩阵 $H$

在这里插入图片描述

第一项中， $L(\theta')$ ，当 $\theta$ 跟 $\theta'$ 很近的时候， $L$ 很靠近。
第二项中， $g$ 代表梯度（一阶导数），可以弥补 $L(\theta')$ 与 $L(\theta)$ 之间的差距。 $g_i$ 表示 $g$ 的第 $i$ 个component，就是 $θ$ 的第 $i$ 个component对 $L$ 的微分。
第三项中， $H$ 表示海塞矩阵，是 $L$ 的二阶导数。

在Critical point附近时：第二项为0，根据第三项来判断→则只需考察H的特征值。
在这里插入图片描述

如果所有eigen value（特征值）都是正的，H是positive definite（正定矩阵），此时就是local minima
如果所有eigen value都是负的，H是negative definite，此时是local maxima
如果eigen value有正有负，那就代表是saddle point

在这里插入图片描述
例：

如果走到鞍点，可以利用H的特征向量确定参数的更新方向。

令特征值小于0，得到对应的特征向量 $u$ ，在 $\theta'$ 的位置加上 $u$ ，沿着 $u$ 的方向做update得到 $\theta$ ，就可以让loss变小。

在这里插入图片描述

Local Minima比Saddle Point少

在这里插入图片描述
Loss在一个维度很高的空间中时，往往只会遇到鞍点而几乎不会遇到局部极小值点⇒从上图可以看出，正特征值的数目最多只占所有特征值的60%，这就说明剩余40%-50%的维度都仍然“有路可走”。

批次（Batch）与动量（Momentum）

Optimization with Batch

根据计算梯度的样本个数，可分为批量梯度下降（全部样本，batch size=N）、小批量梯度下降（分为batch个数的样本）、随机梯度下降（单个样本，batch size=1）。
所有的 batch 经过一遍，叫做一个epoch。

在这里插入图片描述

Small Batch v.s. Large Batch

在这里插入图片描述

左边蓄力时间长,但是精准有效
右边冷却时间短,但是比较noisy（其实noisy的gradient反而可以帮助 training）

在这里插入图片描述
如果考虑“并行计算”，large batch size的梯度下降并不一定时间比较长。

现象：

batch size从1到1000，each update所需要的时间几乎是一样的。
增加到 10000，乃至增加到60000的时候，一个batch（一次update）所要耗费的时间，确实随着batch size的增加而逐渐增长。

原因：

有GPU可以做并行运算。
GPU并行运算的能力还是有极限的，当batch size非常非常巨大的时候，GPU在跑完一个 batch计算出gradient所花费的时间，还是会随着batch size的增加而逐渐增长。

对总时间的影响

在这里插入图片描述

for one update：small batch size更快
for one epoch：large batch size更快（因为有GPU可以做并行运算）

small batch size的优势

small batch size优势1：在更新参数时会有noisy⇒有利于训练

在这里插入图片描述

不同的batch求得的Loss略有差异，有时候可以避免局部极小值“卡住”

small batch size优势2：可以避免Overfitting⇒有利于测试(Testing)

在这里插入图片描述
对于一个Flat Minima来说，在 Training和Testing上面的结果不会差太多；对于一个Sharp Minima来说，一差就可以天差地远。
large batch size每次顺着规定update，容易陷入Sharp Minima。
small batch size由于每次update的方向可能不太一样，比较容易跳出Sharp Minima。
在这里插入图片描述

Batch总结

batch size是一个需要调整的参数，它会影响训练速度与优化效果。

在这里插入图片描述

Optimization with Momentum

在这里插入图片描述

Vanilla Gradient Descent（普通梯度下降）

只考虑梯度的方向，向反方向移动。

在这里插入图片描述

Gradient Descent+Momentum（考虑动量）

综合梯度+上一步的方向。

所谓的Momentum，update 的方向不是只考虑现在的gradient，而是考虑过去所有gradient的总和。
在这里插入图片描述

到达Critical Point时，“惯性”会推着小球继续运动。

自动调整学习速率（Learning Rate）

问题1：training stuck ≠ small gradient⇒Loss不再下降时，未必说明此时到达Critical Point，梯度可能还很大。

在这里插入图片描述

问题2：如果使用“固定的”学习率，即使是在“凸面体”的优化，都会让优化的过程非常困难⇒需要客制化“学习率” ⇒不同的参数需要不同的学习率。
- 较大的学习率：Loss在山谷的两端震荡而不会下降。
- 较小的学习率：梯度较小时几乎难以移动。

在这里插入图片描述

客制化“学习率”

在这里插入图片描述
根据参数此时的实际情况，调整 $\sigma^t_i$ 的大小，实现对参数 $\theta_i$ 的更新。

基本原则：
- 某一个方向上gradient的值很小，非常平坦⇒learning rate调大一点,
- 某一个方向上非常陡峭，坡度很大⇒learning rate可以设得小一点
求取 $\sigma$ 的方式：Root Mean Square（均方根）

Adagrad（自适应学习率梯度下降）

考虑之前所有的梯度大小⇒对本次及之前计算出的所有梯度求均方根，然后每个参数的学习率都除上该均方根。

普通梯度下降为：
$g^t =\frac{\partial L(\theta^t)}{\partial w}$
$\eta^t =\frac{\eta^t}{\sqrt{t+1}}$
$w^{t+1} \leftarrow w^t -η^tg^t$

$w$ 是一个参数

Adagrad可以做的更好：
$w^{t+1} \leftarrow w^t -\frac{η^t}{\sigma^t}g^t$

$\sigma^t$ :对本次及之前所有梯度求得的均方根。对于每个参数都是不一样的。
矛盾：在 Adagrad 中，当梯度越大的时候，步伐应该越大，但下面分母又导致当梯度越大的时候，步伐会越小。
缺陷：不能“实时”考虑梯度的变化情况。

RMSProp

调整当前梯度与历史梯度的权重。

添加参数 $\alpha$ ：

α设很小趋近于0，就代表这一步算出的 $g_i$ 相较于之前所算出来的gradient而言比较重要。
α设很大趋近于1，就代表现在算出来的 $g_i$ 比较不重要，之前算出来的gradient比较重要。

最常用的策略：Adam=RMSProp+Momentum

Learning Rate Scheduling⇒让Learning Rate与 “训练时间”有关

Learning Rate Decay：随着时间不断进行，随着参数不断update， $η$ 越来越小
黑科技：Warm Up⇒让learning rate先变大后变小。

解释： $\sigma$ 指示某一个方向它到底有多陡/多平滑，这个统计的结果，要看足够多的数据以后才精准，所以一开始我们的统计是不精准的。一开始learning rate比较小，是让它探索收集一些有关error surface的情报，在这一阶段使用较小的learning rate，限制参数不会走得离初始的地方太远。等到 $\sigma$ 统计得比较精准以后再让learning rate慢慢爬升。

补充：RAdam

将Error Surface“铲平”⇒Batch Normalization（批次标准化）

在这里插入图片描述

不同的参数发生变化，引起Loss变化的程度不同。

在这里插入图片描述

$x_1$ 的值很小时，当参数 $w_1$ 有一个很小的变化，对 $y$ 的影响很小，从而对Loss的影响也比较小。
$x_2$ 的值很大时，当参数 $w_2$ 有一个同样大小的变化，对 $y$ 的影响则大得多，从而对Loss的影响也比较大。

标准化：类似于标准正态分布过程，将这组数据处理成均值为0，方差为1。。

在这里插入图片描述
$\tilde{x^r_i} = \frac{x^r_i-m_i}{\sigma_i}$

在深度学习中，每一层都需要一次Normalization。

在这里插入图片描述

$\tilde{x}$ 经过 $W_1$ 矩阵后， $a$ ， $z$ 数值的各维度分布仍然有很大的差异，要train第二层的参数 $W_2$ 也会有困难。所以需要对 $a$ 或者 $z$ 进行Normalization。

如果选择的是 Sigmoid，那可能比较推荐对 $z$ 做Feature Normalization，因为Sigmoid在0附近斜率比较大，所以如果你对 $z$ 做Feature Normalization，把所有的值都挪到0附近算gradient的时候,算出来的值会比较大。
通常而言，Normalization放在activation function之前或之后都是可以的。

Batch Normalization：实际上做Normalization时，只能考虑有限数量的数据⇒考虑一个Batch内的数据⇒近似整个数据集。

Batch Normalization适用于batch size比较大时。其中data可以认为足以表示整个数据集的分布，从而，将对整个数据集做Feature Normalization这件事情，改成只在一个batch中做Feature Normalization作为近似。
“还原”：引入向量 $\gamma，\beta$ ，将原本被标准化到 $m=0，\sigma=1$ 的各维度数据恢复到某一分布。
做Normalization以后 $\tilde{z}$ 平均就一定是 0，可以视作是给network一些限制，也许这个限制会带来什么负面的影响，因而进行“还原”操作，让模型自己学习 $\gamma$ ， $\beta$ 。
训练时：初始将 $\gamma$ 设为全为1的向量， $\beta$ 设为全为0的向量。在一开始训练的时候，让每一个dimension的分布比较接近。训练够长的一段时间后，已经找到一个比较好的error surface，走到一个比较好的地方以后，再把 $\gamma$ ， $\beta$ 慢慢加进去。

问题：Testing开始的时候没有足够的数据，无法得到 $\mu$ ， $\sigma$ ，也就无法进行Normalization。
在这里插入图片描述
解决：在training的时候，每一个 batch 计算出来的 $\mu$ 和 $\sigma$ 都拿出来算moving average，最后以training得到的 $\bar{\mu}$ ， $\bar{\sigma}$ 代替testing中的 $\mu$ ， $\sigma$ 去进行Normalization。

Loss of Classification

Classification as Regression

在这里插入图片描述
Regression就是输入一个向量，然后输出一个数值，我们希望输出的数值跟对应的label，也就是我们要学习的目标，越接近越好。

有一个可能，我们其实可以把Classification当作是Regression来看。
这个方法只适合定序数据，即数字可以表示个体在有序状态中所处的位置，比如此时的假设意味着class1跟class2比较像，跟class3比较不像。但不适合定类数据，即数字仅用于区分类别，没有序次关系。