机器学习基础 6：无约束最优化方法—— 梯度与牛顿法

最新推荐文章于 2023-11-25 20:12:07 发布

MatrixArch

最新推荐文章于 2023-11-25 20:12:07 发布

阅读量649

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_45118167/article/details/95409727

版权

本文介绍了无约束最优化的基本方法，包括梯度下降法、牛顿迭代法、阻尼牛顿法以及拟牛顿法的几个变种，如SR1、DFP和BFGS算法。详细阐述了每种方法的原理、迭代过程及优缺点，并探讨了在实际应用中如何选择合适的优化策略。

摘要由CSDN通过智能技术生成

无约束最优化

梯度下降（Gradient Descent）

梯度下降法也称为最速下降法，是一个常用的最优化算法。梯度下降法的计算过程就是沿梯度下降的方向求解极小值。实际上就是一个逼近极值的迭代过程，其迭代公式可表示为 $a_{_{k+1}} = a_{_k} + \rho_{_k}\hat{s}^{_{(k)}}$ ，其中 $\hat{s}^{_{(k)}}$ 表示梯度方向（即变化最大的方向）， $\rho_{_k}$ 表示在梯度方向上的搜索步长。求解过程为：

通过求（偏）导求出梯度方向
通过线性搜索算法确定搜索步长（即：把迭代公式看作是以 $\rho_{_k}$ 为自变量的函数，然后求解函数最值对应的 $\rho_{_k}$ ）或者人为指定一个固定的搜索步长
更新参数
重复以上步骤，直到收敛（梯度方向向量为 $\vec{0}$ ）

推导过程：
令 $\Delta x$ , 在 $\Delta x$ 附近展开一阶泰勒级数，得到：
$f(x+\Delta x)=f(x)+f'(x)(\Delta x)$
$\Delta x$ 可正可负但必须充分接近于0
令 $\Delta x = \mathbf{\alpha D}$ ，其中 $\mathbf{D}$ 为单位方向向量， $\mathbf{\alpha}$ 为实数移动步长，转换为高维形式，得到：
$f(\mathbf{X}+\mathbf{\alpha D})=f(\mathbf{X})+\mathbf{\alpha}\nabla f(\mathbf{X})\mathbf{D}$
为了移动步长最大，使目标函数为： $\max$ $f(\mathbf{X})-f(\mathbf{X}+\mathbf{\alpha D})$
当 $\mathbf{\alpha}$ 确定时，目标函数变为： $\min$ $\nabla f(\mathbf{X})\mathbf{D}$

用向量 $\mathbf{g}^T$ 表示 $\nabla f(\mathbf{X})$ ，则上式可以看作两个向量的点积，即： $\mathbf{g}^T\mathbf{D}$
因此，当 $\mathbf{D}=-\mathbf{g}$ 时，可以获得最大移动步长，就是也是称负梯度方向为“最速下降”方向的由来

牛顿迭代（Newton Method）

牛顿迭代法将对函数 $f$ 优化问题转换为求解该函数的导数 $f^`=0$ 的问题，这样可以将优化问题转换为方程求解问题。为了求解方程 $f^`=0$ ，利用二阶泰勒级数展开可得， $x_{_{n+1}} = x_{_n} - \frac{f^{`}(x_{_n})}{f^{``}(x_{_n})}$ 。求解过程为：

求函数的1阶（偏）导数
求函数的2阶（偏）导数矩阵（Hessian矩阵）的逆
更新参数
重复以上步骤，直到收敛

推导过程：
令 $\Delta x$ , 在 $\Delta x$ 附近展开一阶泰勒级数，得到：
$f(x+\Delta x)=f(x)+f'(x)(\Delta x)+\frac{1}{2}f''(x)(\Delta x)^2$
当 $\Delta x$ 充分接近于0时, 稍作转换得到：
$f''(x)\Delta x=0$
求解：
$\Delta x= -\frac{f'(x_n)}{f''(x_n)}$
令 $\Delta x = x_{n+1} - x_n$ ，得到迭代公式：
$x_{n+1}= x_n-\frac{f'(x_n)}{f''(x_n)}$
将上述公式推广到高维情况：
$X_{n+1}= X_n-\frac{\nabla f(X_k)}{\nabla^2 f(X_k)}$
令 Hessian 矩阵 $H(X_n) = \nabla^2 f(X_k)$ ，公式变为：
$X_{n+1}= X_n-[H(X_n)]^{-1}\nabla f(X_n)$

阻尼牛顿法（Damped-Newton Method）

原始牛顿法虽然具有二次终止性（即用于二次凸函数时，经有限次迭代必达极小点），但是要求初始点需要尽量靠近极小点，否则有可能不收敛。因此人们又提出了阻尼牛顿法。
这种方法在算法形式上等同于所有流行的优化方法，即确定搜索方向，再沿此方向进行一维搜索，找出该方向上的极小点，然后在该点处重新确定搜索方向，重复上述过程，直至函数梯度小于预设判据 $\epsilon$ 。具体算法步骤如下：

给定初始点 $\mathbf{x}_0$ ，设定收敛误差 $\epsilon$ ，初始时 $k = 0$

计算 $\nabla f(\mathbf{x}_k) $ 与 $\nabla^2 f(\mathbf{x}_k) $
若 $\|\nabla f(\mathbf{x}_k)\| < \epsilon$ ，停止迭代；否则，确定搜索方向 $ \mathbf{d}_k = [\nabla^2 f(x_k)]^{-1}\nabla f(x_k)$
从

最低0.47元/天解锁文章

MatrixArch

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习基础 6：无约束最优化方法—— 梯度与牛顿法

无约束最优化梯度下降（Gradient Descent）梯度下降法也称为最速下降法，是一个常用的最优化算法。梯度下降法的计算过程就是沿梯度下降的方向求解极小值。实际上就是一个逼近极值的迭代过程，其迭代公式可表示为 ak+1=ak+ρks^(k)a_{_{k+1}} = a_{_k} + \rho_{_k}\hat{s}^{_{(k)}}ak+1=ak+ρks^(k)，其...
复制链接

扫一扫