梯度下降详解：从标准梯度下降到相关变种

Blanche117

已于 2022-10-22 21:50:02 修改

阅读量501

点赞数

分类专栏：分布式机器学习文章标签：机器学习人工智能算法

于 2022-10-22 21:48:17 首次发布

本文链接：https://blog.csdn.net/weixin_45745854/article/details/127468031

版权

分布式机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

梯度下降及相关变种详解

本篇笔记说明梯度下降法、随机梯度下降和小批量梯度下降三种梯度下降的不同形式做详细说明。

1.几个重要数学概念：偏导数、方向导数和梯度

为了理解梯度下降法，首先需要对标题中的三个数学概念有个简单的概念。

方向导数与偏导数有什么联系？ - 知乎 (zhihu.com)

如何直观形象地理解方向导数与梯度以及它们之间的关系？ - 知乎 (zhihu.com)

该部分参考高等数学下册第七版（同济大学数学系）

偏导数

对于一元函数来说，为了研究其变化率，引入了导数的概念。对于一个多变量的函数来说，也需要研究它的变化率。但是由于多元函数的变量不止一个，关系更加复杂，所以这里先引入的概念为偏导数。

偏导数的概念和表示

偏导数：多元函数关于一个变量的导数，而其他的变量保持恒定。

用数学公式表示：若下面极限存在，那么该极限的值就是函数 $z = f (x, y)$ 在点 $x_0,y_0)$ 处对 $x$ 的偏导数
$\lim\limits_{\Delta x\rightarrow 0}\frac{f(x_0+\Delta x, y_0)-f(x_0,y_0)}{\Delta x}$
对于 $x$ 的偏导数可以记做：
$\left.\frac{\partial z}{\partial x}\right|_{\substack{x=x_0 \\ y=y_0}},\left.\frac{\partial f}{\partial x}\right|_{\substack{x=x_0 \\ y=y_0}},\left.z_x\right|_{\substack{x=x_0 \\ y=y_0}} \text { 或 } f_x\left(x_0, y_0\right) \text {. }$

偏导数的求法

对于 $z = f (x, y)$ ：求 $\frac{\partial f}{\partial x}$ 时，只需要暂时把 $y$ 看做常量，而对 $x$ 求导数；求 $\frac{\partial f}{\partial y}$ 时，只需要暂时把 $x$ 看做常量，而对 $y$ 求导数。当扩展到n元函数的偏导数时，求法以此类推即可。

偏导数的几何意义

二元函数 $z = f (x, y)$ 在点 $x_0,y_0)$ 处的偏导数几何意义如下：

设 $M(x_0,y_0,f(x_0,y_0))$ 为曲面 $z = f (x, y)$ 上的一点，过M作平面 $y=y_0$ ，截此曲面得一曲线，此曲线在平面 $y=y_0$ 上的方程为 $z=f(x,y_0)$ ，则导数 $\frac{d}{dx}f(x,y_0)|_{x=x_0}$ ,即偏导数 $f_x(x_0,y_0)$ ，就是这曲线在点 $M_0$ 处的切线 $M_0T_x$ 对x轴的斜率(见图9-5)。同样，偏导数 $f(x_0,y_0)$ 的几何意义是曲面被平面 $x=x_0$ 所截得的曲线在点 $M_0$ 处的切线 $M_0T_y$ 对y轴的斜率。

总之：偏导数反映了函数沿着坐标轴方向的变化率。

方向导数

偏导数反映了函数沿着坐标轴方向的变化率，但是仅仅研究函数沿着坐标轴方向的变化率是不够的。故又引入了方向导数的概念，以研究函数沿着任意一个方向的变化率问题。

方向导数的定义和表示

设 $l$ 是 $x O y$ 平面上以 $P_0(x_0,y_0)$ 为始点的射线， $e_l=(cos\alpha,cos\beta)$ 是与 $l$ 同方向的单位向量。射线 $l$ 的参数方程为：
$\left\{\begin{array}{l} x=x_0+t \cos \alpha, \\ y=y_0+t \cos \beta \end{array}(t \geqslant 0) .\right.$

设函数 $z = f (x, y)$ 在点 $P_0(x_0,y_0)$ 的某个邻域 $U(P_0)$ 内有定义， $\alpha,y_0 + tcos β)$ 为 $l$ 上另一点，且 $P∈U(P_0)$ . 如果函数增量 $f(x_0+tcos \alpha,y_0 +tcosβ)-f(x_0,y_0)$ 与 $P$ 到 $P_0$ 的距离 $PP_0| =t$ 的比值
$\frac{f(x_0+tcos\alpha, y_0+tcos\beta)-f(x_0,y_0)}{t}$
当 $P$ 沿着 $l$ 趋于 $P_0$ (即 $\rightarrow 0^{+}$ ) 时的极限存在, 那么称此极限为函数 $f (x, y)$ 在点 $P_0$ 沿方向 $l$ 的方向导数, 记作 $\left.\frac{\partial f}{\partial l}\right|_{\left(x_0, y_0\right)}$ , 即
$\left.\frac{\partial f}{\partial l}\right|_{\left(x_0, y_0\right)}=\lim _{t \rightarrow 0^{+}} \frac{f\left(x_0+t \cos \alpha, y_0+t \cos \beta\right)-f\left(x_0, y_0\right)}{t} .$

方向导数的几何意义

由上述的定义可知，方向导数的几何意义就是函数 $f (x, y)$ 在点 $P_0(x_0,y_0)$ 处沿方向 $l$ 的变化率。

同时，方向导数和偏导数有一定的关系：

若函数 $f (x, y)$ 在点 $P_0(x_0,y_0)$ 的偏导数存在
- $e_l=i=(1,0)$ ，则：
  $\left.\frac{\partial f}{\partial l}\right|_{\left(x_0, y_0\right)}=\lim _{t \rightarrow 0^{+}} \frac{f\left(x_0+t , y_0\right)-f\left(x_0, y_0\right)}{t}=f_x(x_0,y_0)$
- $e_j=j=(0,1)$ ，则：
  $\left.\frac{\partial f}{\partial l}\right|_{\left(x_0, y_0\right)}=\lim _{t \rightarrow 0^{+}} \frac{f\left(x_0 , y_0+t\right)-f\left(x_0, y_0\right)}{t}=f_y(x_0,y_0)$
若 $e_l=i=(1,0)$ ， $\frac{\partial f}{\partial l}|_{(x_0,y_0)}$ 存在，则 $\frac{\partial z}{\partial l}|_{(x_0,y_0)}$ 不一定存在

方向导数的计算

方向导数的计算和定义如下：
$\left.\frac{\partial f}{\partial l}\right|_{\left(x_0, y_0\right)}=f_x(x_0,y_0)\cos\alpha+f_y(x_0,y_0)\cos\beta$
其中 $\alpha和\beta$ 是方向 $l$ 的余弦。

梯度

梯度的定义

在二元函数的情形下，设函数 $f (x, y)$ 在平面 $D$ 内具有一阶连续偏导数，则对于每一点 $P_0(x_0,y_0)\in D$ ，都可以定义出一个向量：
$f_x(x_0,y_0)\boldsymbol{i}+f_y(x_0,y_0)\boldsymbol{j}$
则称为函数 $f (x, y)$ 在点 $P_0(x_0,y_0)$ 的梯度，记做 $\bold{grad}f(x_0,y_0)$ 或者 $\nabla f(x_0,y_0)$ ，即：
$\boldsymbol{g r a d} f\left(x_0, y_0\right)=\nabla f\left(x_0, y_0\right)=f_x\left(x_0, y_0\right) \boldsymbol{i}+f_y\left(x_0, y_0\right) \boldsymbol{j} \text {. }$
如果函数 $f (x, y)$ 在点 $P_0(x_0,y_0)$ 处可微分， $\boldsymbol{e_l}=(\cos\alpha,\cos\beta)$ 是与 $l$ 同方向的方向向量，那么
$\left.\frac{\partial f}{\partial l}\right|_{\left(x_0, y_0\right)}=f_x(x_0,y_0)\cos\alpha+f_y(x_0,y_0)\cos\beta\\ =\boldsymbol{grad}f(x_0,y_0)·\boldsymbol{e_l}=|\boldsymbol{grad}f(x_0,y_0)|\cos\theta$
其中 $\theta=({\boldsymbol{grad}\widehat{f(x_0,y_0),\boldsymbol{e_l}}})$ 。

方向导数与梯度之间的关系【重要结论推导】

上述推导可以进一步得到这个点的梯度与方向导数之间的关系：

当 $\theta=0$ 时，即 $\boldsymbol{e_l}$ 与梯度 $\boldsymbol{g r a d} f\left(x_0, y_0\right)$ 的方向相同时，函数 $f (x, y)$ 增加最快

此时，函数在这个方向的方向导数达到最大值，这个最大值就是梯度 $\boldsymbol{g r a d} f\left(x_0, y_0\right)$ 的模，即：
$\left.\frac{\partial f}{\partial l}\right|_{\left(x_0, y_0\right)} = |\boldsymbol{g r a d} f\left(x_0, y_0\right)|$
当 $\theta=\pi$ 时，即 $\boldsymbol{e_l}$ 与梯度 $\boldsymbol{g r a d} f\left(x_0, y_0\right)$ 的方向相反时，函数 $f (x, y)$ 减少最快

此时，函数在这个方向的方向导数达到最小，这个最大值就是梯度 $\boldsymbol{g r a d} f\left(x_0, y_0\right)$ 的模的相反数，即：
$\left.\frac{\partial f}{\partial l}\right|_{\left(x_0, y_0\right)} = -|\boldsymbol{g r a d} f\left(x_0, y_0\right)|$
当 $\theta=\frac{\pi}{2}$ 时，即 $\boldsymbol{e_l}$ 与梯度 $\boldsymbol{g r a d} f\left(x_0, y_0\right)$ 的方向正交时，函数 $f (x, y)$ 的变化率为0，即函数值不变。
$\left.\frac{\partial f}{\partial l}\right|_{\left(x_0, y_0\right)} = |\boldsymbol{g r a d} f\left(x_0, y_0\right)|\cos\frac{\pi}{2}=0$

经过上面的证明，我们得到了梯度下降的重要结论：

梯度的方向是函数值增加最快的方向
梯度的反方向是函数值减少最快的方向

梯度下降法是基于上面的结论确定函数局部极小值的一个优化算法。

下面详细说明梯度下降，随机梯度下降，小批量梯度下降算法。

2. 梯度下降

[5分钟深度学习] #01 梯度下降算法_哔哩哔哩_bilibili

详解梯度下降法（干货篇） - 知乎 (zhihu.com)

【官方双语】深度学习之神经网络的结构 Part 1 ver 2.0_哔哩哔哩_bilibili

【官方双语】深度学习之梯度下降法 Part 2 ver 0.9 beta_哔哩哔哩_bilibili

【官方双语】深度学习之反向传播算法上/下 Part 3 ver 0.9 beta_哔哩哔哩_bilibili

引入

先考虑一个拟合的例子，使用直线 $y = k x + b$ 对下图所示的散点进行拟合。

对于任意一个散点 $x_i,y_i)$ ，它的拟合值为 $y_i'$ ，那么我们将二者之间误差记做 $e_i=y_i'-y_i$ 。另外，为了考量拟合结果的好坏，我们定义一个损失函数 $L$ ，如下：
$L=\frac{1}{2}\sum_{i=1}^n|e_i|^2$
显然，损失函数函数值越小，拟合的效果越好；损失函数的函数值越大，拟合的效果越差。然后我们将直线的方程 $y = k x + b$ 右侧代入损失函数，得到：
$L=\frac{1}{2}\sum_{i=1}^n[y_i-(kx_i+b)]^2$
考虑下面的两种情况：

直线斜率 $k$ 已知，截距 $b$ 未知
$L=\frac{1}{2}\sum_{i=1}^nb^2+2(kx_i-y_i)b+(y_i-kx_i)^2$
整理得损失函数 $L$ 为关于b的一个二次函数。函数图像开口向上，有最小值。为了求得 $L$ 的最小值，那么只要对其求导，得到b等于何值时，损失函数值最小。这个 $b$ 的值就是我们最佳的拟合直线的截距取值。

如果我们不知道直接求导，令导数等于0，或者说这个函数的导数求等于0的值较为困难，那么怎么找到这个b值呢？

采用迭代优化的方式

随机确定一个初始的b值，假设如下图所示的 $b_1$

梯度方向是增加最快的方向（对于一元函数来说为导数），按照该结论，我们应该沿着梯度的反方向更新b值，即：
$b\leftarrow b-a·\frac{dL}{db}$
这里的a我们称之为学习率，简单一点理解就是梯度下降的步长，反映了更新b的程度。重复这个步骤直到梯度为零，b不再会被更新，至此我们也找到了最优b的值。
直线斜率 $k$ 和截距 $b$ 均未知
$L=\frac{1}{2}\sum_{i=1}^nb^2+2(kx_i-y_i)b+(y_i-kx_i)^2\\ =\frac{1}{2}\sum_{i=1}^nb^2+x_i^2k^2+2x_ibk-2y_ib+y_i^2-2x_iy_i$

为关于 $k$ 和 $b$ 的二元二次函数。此时要求解损失函数的最小值，可以使用多元函数的极值进行求解。同样，我们也可以采用梯度下降的方式，逐步确定参数的最佳取值。

梯度下降概念

一般的情况：

对于最简单的线性函数 $y=f(x_i,\theta)$ :
$h(\theta)=\theta_0+\theta_1x_1+\theta_2x_2+...+\theta_nx_n$
定义其损失函数为：
$L=\frac{1}{2}\sum_{i=1}^m|e_i|^2=\frac{1}{2}\sum_{i=1}^m(y_i-h(\theta))^2$
那么梯度下降的参数更新式为：
$\theta_{n+1}=\theta_n-\alpha\nabla L$
其中
$\nabla L=\frac{\partial L(\theta)}{\partial\theta }$

标准梯度下降

标准梯度下降是对所有的样本的损失函数求梯度，再对参数进行更新：
$\theta_{n+1}=\theta_n-\alpha\nabla L$
标准梯度下降需要遍历样本集合，梯度下降的方向是最优的方向。但遍历整个样本集合也造成了极大的内存消耗和较长的时间开销。这就引入了随机梯度下降的概念：

3. 随机梯度下降

随机梯度下降的概念

随机梯度下降不再对整个样本空间的损失和函数求梯度，而是每次从样本空间中选择一个子集，使用抽取的子集的损失函数对参数进行更新。

比如每次从大小为n的样本空间中随机抽取m个样本，并且每次都不重复，这样能解决内存开销和时间开销的问题。当样本的方差较小时，使用小部分的样本仍可以按照正确的趋势收敛函数。这样抽取的方式被称为批梯度下降。

存在问题

随机梯度下降存在震荡的问题：

随机梯度下降时学习率 $\alpha$ 不能设置得过大，否则可能在山谷附近（最优解附近）“震荡”，始终无法得到最优解。

这种算法如果要遍历整个样本集的话需要迭代很多次，且每次更新并不是向着最优的方向进行，所以每走一步都要“很小心”，也就是说随机梯度下降法的学习率α不能设置太大，不然容易出现在最优解附近“震荡”，但始终无法更接近最优解的现象。
但从另一个角度来看，这种“来回震荡”的优化路线在损失函数局部极小值较多时，能够有效避免模型陷入局部最优解。

详解梯度下降法（干货篇） - 知乎 (zhihu.com)

4. Momentum梯度下降法

Momentum梯度下降概念

Momentum梯度下降法，动量梯度下降法。在进行下一次的梯度下降更新参数前，保留上一次的梯度，这里称为“动量”。然后使用本次的梯度与动量合成，合成的方向为本次真正的下降方向。

动量梯度下降的物理含义可以由下图直观理解，按照动量梯度下降，下降将更加平滑。更容易达到最优解。

更新的方程如下：
$\theta_{n+1}=\mu\theta_n-\alpha\nabla L$
此处 $\mu\theta_n$ 中 $\mu$ 为动量系数或者控制动量。

5. AdaGrad梯度下降法

$\alpha$ 为学习率，对于神经网络而言，一开始我们希望快速找到一个正确的收敛方向，会设置一个较大的学习率，但是随着训练过程，我们需要找到最优解防止震荡就需要找到一个更加细致的学习率。

这里引入了一个新的参数 $r$ ，表示梯度随时间的积累量：
$r\leftarrow r+L^2$
将 $r$ 作为更新方程的一部分：
$\theta_{n+1}=\theta_n-\frac{\alpha}{\sqrt{\delta+r}}\nabla L$
引入后：当梯度变化较大时，学习率会较快的下降；梯度波动很小时，学习率会较快下降。 $\delta$ 是一个很小的数，用来防止分母为0.

后来又有了RMSProp（2012）

6. Adam梯度下降法

Adam梯度下降既考虑了动量，又考虑了学习率的自动调节。方法又引入了一个参数 $s$ ，此外 $r$ 使用的是RMSProp中 $r$ 的表示：
$\begin{aligned} &\hat{s} \leftarrow \rho_1 s+\left(1-\rho_1\right) g \quad\text{→自适应动量}\\ &\hat{r} \leftarrow \rho_2 r+\left(1-\rho_2\right) g^2 \end{aligned}$
更新方程为：
$\theta_{n+1} = \theta_n-\frac{\varepsilon \hat{s}}{\sqrt{\hat{r}}+\delta}$