深度学习基本知识点-梯度下降

xuecaisun

已于 2023-02-16 17:11:20 修改

阅读量245

点赞数

分类专栏：深度学习基础文章标签：深度学习人工智能

于 2023-02-16 17:06:08 首次发布

深度学习基础专栏收录该内容

2 篇文章 0 订阅

订阅专栏

梯度：梯度是函数对参数的偏微分，这里由于参数比较多，对于每个参数都有一个偏微分，所以梯度是一个向量。
如果损失函数 $f = x^{2} + y^{2}$ , 此时参数为 $x$ 和 $y$ ，目标是最小化损失函数，即损失值最小的时候 $x$ 和 $y$ 的取值，这里对 $x$ 和 $y$ 做偏微分：

$\frac{\partial f}{\partial x} =2x$

$\frac{\partial f}{\partial y} =2y$

对于训练数据集，每一个数据都可以调整 $x$ 和 $y$ 参数的数值，但最开始需要给他们一个初始值(这涉及到初始化算法，这里暂时不提) $x^{0}$ 和 $y^{0}$ ，那么接下来就可以迭代了：

$x^{1} = x^{0} - \alpha \cdot \frac{\partial f}{\partial x}$

$y^{1} = y^{0} - \alpha \cdot \frac{\partial f}{\partial y}$

$\alpha$ 就是学习率，经过多次迭代，直到损失函数 $f$ 的值达到最小（什么时候最小，这个就涉及到early stopping了）。

BGD

批量梯度下降

GD是对于每个样本都进行参数更新，这个速度太慢了，BGD是对一个批量的数据计算得到下降总均值，然后来更新参数：

$\theta _{t+1} = \theta _{t} - \alpha \cdot\frac{1}{n} \cdot \sum_{i=1}^{n} \bigtriangledown_{\theta _{t} } J_{i}(\theta _{t}, x _{i}, y _{i})$

SGD

BGD虽然每批次更新一次梯度，但是需要计算批量里的每个样本的梯度值，随机梯度下降就是在一个批次中只更新一次梯度，这个和BGD一致，但是每次只随机抽取批量里的一个样本来计算梯度进行更新。这样计算效率提高很多，当然也有自己的弊端，那就是不够准确，随机选取的数据如果算得的梯度值过大，波动就会很大，那么很容易从一个局部最优直接跳转到另一个局部最优。

Mini-batch GD

那不能保证又快又好，那就只能折中，就是既不是计算批次里所有数据，也不是只随机选取一个，那就从中选取m个，m小于批数量。目前的SGD默认就是Mini-batch GD。

Momentum

动量梯度下降，增加一个参数 $m_{t}$ (一阶动量)

$m_{t+1} = \beta m_{t} + (1-\beta )\frac{\partial f}{\partial x}$

$\theta _{t+1} = \theta _{t} - \alpha \cdot m_{t+1}$

一阶动量约等于最近 $\frac{1}{1-^{\beta _{1}}}$ 个时刻梯度向量和的平均值（说实话，文字我理解了，但是这公式没看懂， $\beta m_{t}$ 表示上一时刻的一阶动量， $\frac{\partial f}{\partial x}$ 也是上一时刻的梯度啊，除非公式写错了，应该是这一时刻的梯度才对）， $\beta$ 值一般取0.9，那就是最近十次梯度的平均值。这是为了避免当前批次更新过于震荡，方向走错，所以采用近10次的平均值。在梯度方向改变时，momentum能够降低参数更新速度，从而减少震荡，在梯度方向相同时，momentum可以加速参数更新，从而加速收敛。