【学习记录】优化方法：梯度下降、牛顿法

syusukeJ

已于 2022-04-28 15:40:47 修改

阅读量1.4k

点赞数 3

文章标签：机器学习深度学习

于 2022-04-26 22:17:23 首次发布

本文链接：https://blog.csdn.net/weixin_57749806/article/details/124427887

版权

【学习记录】优化方法：梯度下降、牛顿法

前言
一、优化方法基础
二、神经网络参数学习中常见的优化算法
对比与思考

前言

学习过程中的一些思考和记录，有错误的地方欢迎指正

神经网络的参数主要通过梯度下降来进行优化。

一、优化方法基础

求解无约束最优化问题的一种最常用的方法。

1.梯度下降

李航老师《统计学习方法》的附录A
例如我们要求解 $m i n (f (x))$ 的极小值点。
大致思路就是：先选一个合适的初值，然后去不断迭代，更新这个x，直到收敛。
那么怎样去迭代呢：
首先记 $f (x)$ 的梯度是 $g_{k}=g(x^{k})=\nabla f(x^{k})$ ，这里的 $x_{k}$ 就是第k次的迭代值， $g_{k}$ 是 $f (x)$ 在 $x^{k}$ 的梯度。
假设 $x^{0}$ 是一个比较合适的初始值，此时可以进行的一阶泰勒展开 $f(x)=f(x^{0})+g_{0}^{T}*(x-x^{0})$
第k+1次的迭代值 $x^{k+1}$ [重点是这个迭代式怎么来的]：
$x^{k+1} \gets x^{k}+ \lambda_{k}p_{k}$
其中, $p_{k} =- \nabla f(x^{k})$ ， $\lambda_{k}$ 是步长，由一维搜索确定，即 $\lambda_{k}$ 使得 $(x^{k}+ \lambda_{k}p_{k}) =\min\limits_{\lambda \geq 0} f (x^{k}+ \lambda_{k}p_{k})$

怎么理解上面这个迭代式呢？假设从 $x^{k}$ 求 $x^{k+1}$ 且 $x^{k} < x^{k+1}$ ，目标是求 $f (x)$ 的最小值，所以希望 $f(x^{k+1}) \le f(x^{k})$ ，于是： $f(x^{k+1}) - f(x^{k})=g_{k}^{T}*(x^{k+1}-x^{k}) \le 0$ $g_{k}^{T}*(x^{k+1}-x^{k}) \le 0$ ，也就是说在 $k$ 处的梯度方向和 $x^{k+1}-x^{k}$ 的方向夹角的cos值小于0， $||g_{k}^{T}||\times||x^{k+1}-x^{k}||\times cos(g_{k}^{T},(x^{k+1}-x^{k}) )\le 0$ 当 $cos(g_{k}^{T},(x^{k+1}-x^{k}) )=-1$ 式上面的值会达到最小值，也就是梯度和 $x^{k+1}-x^{k}$ 的方向恰好相反，也就是 $-\lambda g_{k}^{T}=x^{k+1}-x^{k}$ ，这个 $\lambda$ 就是对两者模长的调整，这样就得到了上面的迭代式。

算法描述:
输入：目标函数 $f (x)$ ，梯度 $g(x)=\nabla f(x)$ ，精度要求 $\epsilon$ ；
输出： $f (x)$ 极小值点 $x^{*}$
（1）取初始点 $x^{0}$ ，置k=0
（2）计算 $f(x^{k})$
（3）计算梯度 $g_{k}=g(x^{k})$ ，当 $||g_{k}||< \epsilon$ 时，则停止计算，令 $x^{*}=x^{k}$ ，否则 $p_{k}=-g_{k}$ ，求 $\lambda _{k}$ ，使 $(x^{k}+ \lambda_{k}p_{k}) =\min\limits_{\lambda \geq 0} f (x^{k}+ \lambda_{k}p_{k})$

（4）置 $x^{k+1}=x^{k}+\lambda _{k}p_{k}$ ,计算 $f(x^{k+1})$ ，当 $||f(x_{k+1})-f(x_{k})||< \epsilon$ 或 $||x_{k+1}-x_{k}||< \epsilon$ 时，停止迭代，令 $x^{*}=x^{k+1}$
（5）否则，置 $k = k + 1$ ，转(3) 当目标函数是凸函数时，梯度下降法的解是全局最优解

“花书”上的解释直观易懂，copy在这里：

在 $\mu$ （单位向量）方向的方向导数是函数f在u方向的斜率。换句话说，方向导数是函数 $\alpha \mu)$ 关于 $\alpha$ 的导数(在 $\alpha=0$ 时取得)。
使用链式法则，可以看到 $\alpha=0$ 时， $\frac{\partial}{\partial \alpha} f(x+\alpha \mu)=\mu^{T} \nabla _{x}f(x)$
为了最小化 $f$ ,我们希望找到使 $f$ 下降得最快得方向。计算方向导数：
$\min \limits_{\mu ,\mu^{T}\mu=1} \mu^{T}\nabla_{x}f(x)=\min \limits_{\mu ,\mu^{T}\mu=1} \mu^{T}||\mu||_{2}||\nabla_{x}f(x)||_{2}cos\theta$ 其中, $\theta$ 是 $\mu$ 与梯度得夹角。 $||\mu||_{2}=0$ 代入，就能简化得到 $\min \limits_{\mu } \cos\theta$ ，这在 $m u$ 与梯度方向相反时取得最小。换句话说，梯度向量指向上坡，负梯度向量指向下坡。

2.牛顿法

李航老师《统计学习方法》的附录B

方法细节

牛顿法也是一种迭代算法，每一步都需要求解目标函数的黑塞矩阵的逆矩阵。
和上面的梯度下降一样，我们要求解 $m i n (f (x))$ 的极小值点（这里一般是损失函数）。
那么黑塞矩阵（Hessian Matrix）又是什么呢
Hessian矩阵就是函数二阶导组成的一个方阵。 $H(x)=\begin{bmatrix} \frac{ \partial^{2} f}{\partial x_{i}\partial x_{j}} \end{bmatrix}$
比如函数 $f(x)=ax_{0}^{2}+b*x_{1} ^{3}+cx_{2}^{4}$ $\frac{ \partial f}{x_{0}}=2ax_{0},\frac{ \partial f}{x_{1}}=3bx_{1}^{2},\frac{ \partial f}{x_{2}}=4ax_{2}^{3}$ $\frac{ \partial^{2} f}{x_{0}^{2}}=2a,\frac{ \partial^{2} f}{x_{1}^{2}}=6bx_{1},\frac{ \partial^{2} f}{x_{2}^{2}}=12ax_{2}^{2}$ $\frac{ \partial^{2} f}{x_{0}x_{1}}=0,\frac{ \partial^{2} f}{x_{0}x_{2}}=0,\frac{ \partial^{2} f}{x_{1}x_{2}}=0$ Hessian矩阵就是(一定是个方阵)： $Hessian=\begin{bmatrix} \frac{ \partial^{2} f}{x_{0}^{2}} & \frac{ \partial^{2} f}{x_{0}x_{1}} & \frac{ \partial^{2} f}{x_{0}x_{2}} \\ \frac{ \partial^{2} f}{x_{0}x_{1}} & \frac{ \partial^{2} f}{x_{1}^{2}} & \frac{ \partial^{2} f}{x_{1}x_{2}} \\ \frac{ \partial^{2} f}{x_{0}x_{2}} & \frac{ \partial^{2} f}{x_{1}x_{2}} & \frac{ \partial^{2} f}{x_{2}^{2}} \end{bmatrix}= \begin{bmatrix} 2a & 0 & 0 \\ 0 & 6bx_{1} & 0 \\ 0 & 0 & 12ax_{2}^{2} \end{bmatrix}$
对目标函数 $f (x)$ 二阶泰勒展开：
$f(x)=f(x^{k})+g_{0}^{T}*(x-x^{k})+\frac{1}{2}(x-x^{k})^{T}H(x_{k})(x-x^{k})$
$f (x)$ 有极值的必要条件是在极值点处的一阶导数为0，即梯度向量为0.

假设从第k步开始求极小值点，就有 $\nabla f(x^{k+1})=0$ ，由上面的二阶展开，可以知道 $\nabla f(x)=g_{k}+H_{k}(x-x^{k})$ ，那么 $g_{k}+H_{k}(x^{k+1}-x^{k})=0$ ，解得 $x^{k+1}=x^{k}-H_{k}^{-1}g_{k}$ 若记 $p_{k}=-H_{k}^{-1}g_{k}$ ，可以写成 $x^{k+1}=x^{k}+p_{k}$

详细算法描述：

输入：目标函数 $f (x)$ ，梯度 $g(x)=\nabla f(x)$ ，Hessian矩阵，精度要求 $\epsilon$ ；
输出： $f (x)$ 极小值点 $x^{*}$

（1）取初始点 $x^{0}$ ，置k=0
（2）计算 $g_{k}=g(x^{k})$
（3）若 $||g_{k}||< \epsilon$ ，则停止计算，得近似解 $x^{*}=x^{k}$
（4）计算 $H_{k}=H(x^{k})$ ，并求 $p_{k}$ $p_{k}=-H_{k}^{-1}g_{k}，H_{k}p_{k}=-g_{k}$ （5）置 $x^{k+1}=x^{k}+p_{k}$ （6）置 $k = k + 1$ ，转(2)

$||g_{k}||< \epsilon$ 即在给定一个足够小的正数的情况下，整个过程可以认为已经收敛，如果还没有满足这个条件，说明模型的最小值还不够近似，需要继续迭代。

那么在这个算法中，我们是用来估计模型的参数，有一次做“用Newton-Raphson Method方法近似求解方程的根”，于是对它们做一些记录，在一些大厂的机考中有遇到过
和上面的思路相同，我们可以得到一个迭代式，不过现在不是高维数据，不用矩阵表示
$x_{n+1}=x_{n}-\frac{f(x_{n})}{f^{'}(x_{n})}$
迭代上述式子即可，直到 $x_{n+1}-x_{n}$ 的绝对值小于等于一个给定的足够小的正数。在这里和求解参数没有什么不同，方程的系数就相当于是样本，求解的根类似于上述的参数。（当前的理解是这样）

补充

既然都说到Hessian矩阵的，也来记录一下它的好兄弟Jacobian矩阵，Hessian矩阵对二阶导数感兴趣，那么Jacobian矩阵对一阶导数感兴趣。

二、神经网络参数学习中常见的优化算法

1.小批量梯度下降

参考邱锡鹏老师《神经网络与深度学习》

通常在训练深度神经网络是训练数据的规模都很大，这样很浪费计算资源，所以经常会使用小批量梯度下降。这样迭代式就可以写成 $x^{k+1} \gets x^{k}+ \lambda_{k}p_{k}$ ，如果神经网络的参数是 $\theta$ ，那么就可以写成 $\theta^{k+1} \gets \theta^{k}+ \lambda_{k}p_{k}$ ， $\lambda$ 是学习率，更新的梯度为 $p_{k}(\theta)=-\frac{1}{K} \sum_{(x,y)\in S_{t}}\frac{\partial L(y,f(x;\theta))}{\partial \theta}$ L就相当于梯度下降中的 $f (x)$ ，这里的K就是批量大小。

这种方法实际过程中优化过程
举例来说，有100张灰度图，每张图片是16*16的，把它们分成10个batch，每个batch是十张图片，用一层的MLP去拟合，这样的话就需要256个参数，我们接下来就是要学出这256个参数。用均方误差表示损失函数。
首先，对这256个参数随机初始化，记为 $\theta_{1}^{0},\theta_{2}^{0}...\theta_{256}^{0}$ ， $pre=\theta _{1}*pixel_{1}+\theta_{2}*pixel_{1}+...+\theta_{256}*pixel_{256}$ 第一个batch， $\theta_{i}^{1}=\theta_{i}^{0}-\frac{1}{10}\sum_{t=1}^{10}\frac{\partial (pre^{0}_{t}-label)^{2}}{\partial \theta_{t}^{0}}$ 256个参数的更新公式都相同，后面的9次参数更新和第一个相同。

每一次小批量更新为一次迭代（也就是所有参数更新一次）为一次迭代，所有训练集的样本更新一遍为一个回合，两者的关系是 $1回合(Epoch)=(\frac{训练样本的数量N}{批量大小K})*迭代(Iteration)$ 在上面的例子中，Iteration就是10，也就是所有参数在一个回合中更新了10次。

2.随机梯度下降SGD

算法

输入：目标函数 $f (x)$ ，梯度 $g(x)=\nabla f(x)$ ，精度要求 $\epsilon$ ，初始学习率 $\lambda_{0}$ ；
输出： $f (x)$ 极小值点 $x^{*}$
（1）取初始点 $x^{0}$ ，置k=0
（2）从训练集中采包含m个样本的小批量，计算 $f(x^{k})$
（3）计算梯度 $g_{k}=g(x^{k})$ ，当 $||g_{k}||< \epsilon$ 时，则停止计算，令 $x^{*}=x^{k}$ ，否则 $p_{k}=-g_{k}$ ，使（ $\tau$ 为迭代次数） $g_{k}(\theta)=\frac{1}{K} \sum_{(x,y)\in S_{t}}\frac{\partial L(y,f(x;\theta))}{\partial \theta},\lambda_{k}=(1-\alpha)\lambda_{0}+\alpha \lambda_{\tau}$

（4）置 $x^{k+1}=x^{k}+\lambda _{k}p_{k}$ ，计算 $f(x^{k+1})$ ，当 $||f(x_{k+1})-f(x_{k})||< \epsilon$ 或 $||x_{k+1}-x_{k}||< \epsilon$ 时，停止迭代，令 $x^{*}=x^{k+1}$
（5）否则，置 $k = k + 1$ ，转(3)

解释

《Deep Learning》'花书'
SGD算法中的一个关键参数是学习率，在训练模型的过程中，有必要随着时间的推移逐渐降低学习率，我们将第k步迭代的学习率记作 $\epsilon_{k}$ ，这是因为SGD中梯度估计引入的噪声源（m个样本的随机采样）并不会在极小值点处消失。
相比之下，当我们使用批量梯度下降到达极小点时，整个损失函数的真实梯度会变得很小，之后为0（因为想找的点它的导数就是0嘛），因此批量梯度下降可以使用固定的学习率。
SGD收敛的充分条件： $\sum_{k}^{\infty}\lambda_{k}=\infty,\sum_{k}^{\infty}\lambda_{k}^{2}<\infty$
实践中，一般会线性衰减学习率到第 $\tau$ 次迭代(即常见的线性策略)： $\lambda_{k}=(1-\alpha)\lambda_{0}+\alpha \lambda_{\tau}$ 其中， $\alpha=\frac{k}{\tau}$ ，在 $\tau$ 步迭代后，一般会使 $\lambda$ 保持常数。

再结合上面的例子，也就是说一个batch会有一个学习率，对模型的参数更新中的步长同时也进行更新。在不设置次数限制的情况下，上面的例子中，步长 $\lambda$ 也会更新10次。
通常，就总训练时间和最终代价值而言，最优初始学习率会高于大约迭代100次后达到最佳效果的学习率。因此，通常最好是检测最早的几轮迭代，选择一个比在效果上表现最佳的学习率更大的学习率，但又不能太大导致严重的震荡。

3.动量法

《Deep Learning》'花书'
一种在上述方法的基础上加速学习的优化方法，形式上来看，动量算法引入了变量v充当速度的角色，代表参数在参数空间移动的方向和速率。
引入v后，参数的更新规则有了一些变化,m为批量大小 $v\gets \alpha v -\lambda \nabla_{\theta} (\frac{1}{K}\sum_{(x,y)\in S_{t}}\frac{\partial L(y,f(x;\theta))}{\partial \theta})$ $\theta \gets \theta+v$ 从公式中就可以看到，速度v累积了梯度元素, $\lambda$ 不变， $\alpha$ 越大，之前的梯度对现在方向的影响也越大。
之前，步长只是梯度范数乘以学习率，现在步长取决于梯度序列的大小和排列。当许多的梯度指向相同的方向时，步长最大。

对比与思考

1.梯度下降法：一阶泰勒展开步长需要调整
牛顿法：二阶泰勒展开没有需要调整的超参数
2.

方法	迭代式
SGD	$p_{k}(\theta)=-\frac{1}{K} \sum_{(x,y)\in S_{t}}\frac{\partial L(y,f(x;\theta))}{\partial \theta}$ $\lambda_{k}=(1-\alpha)\lambda_{0}+\alpha \lambda_{\tau}$ $\theta^{k+1}=\theta^{k}+\lambda _{k}p_{k}$
动量法	$p_{k}(\theta)=-\frac{1}{K} \sum_{(x,y)\in S_{t}}\frac{\partial L(y,f(x;\theta))}{\partial \theta}$ $v^{k+1}\gets \alpha v^{k} +\lambda^{k}p_{k}$ $\theta^{k+1}=\theta^{k}+v^{k+1}$