A-03 牛顿法和拟牛顿法

最新推荐文章于 2024-01-30 21:39:38 发布

小猿取经-Egon林海峰

最新推荐文章于 2024-01-30 21:39:38 发布

阅读量282

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_46032351/article/details/104683225

版权

机器学习专栏收录该内容

90 篇文章 8 订阅

订阅专栏

文章目录

牛顿法和拟牛顿法
牛顿法详解
牛顿法流程
拟牛顿法简介

牛顿法和拟牛顿法

在这里插入图片描述

牛顿法(Newton method)和拟牛顿法(quasi-Newton method)和梯度下降法一样也是求解最优化问题的常用方法，但是他们的收敛速度比梯度下降法快。牛顿法是迭代算法，每一步都需要求目标函数的海森矩阵的逆矩阵，计算复杂；拟牛顿法通过正定矩阵近似海森矩阵的逆矩阵，简化这个计算过程。

牛顿法详解

无约束最优化问题

对于一个约束问题
$\underbrace{min}_{x\in{R^n}}f(x)$
其中 $x^*$ 为目标函数的极小点。

牛顿法迭代公式

假设 $f (x)$ 具有二阶连续偏导数，如果第 $k$ 次迭代值为 $x^{(k)}$ ，则可以把 $f (x)$ 在 $x^{(k)}$ 附近使用二阶泰勒展开
$f(x)=f(x^{(k)})+g_k^T(x-x^{(k)})+\frac{1}{2}(x-x^{(k)})^TH(x^{(k)})(x-x^{(k)})$
其中 $g_k=g(x^{(k)})=\nabla{f(x^{(k)})}$ 是 $f (x)$ 的梯度向量在点 $x^{(k)}$ 的值， $H(x^{(k)})$ 是 $f (x)$ 的海森矩阵
$H(x)=[\frac{\partial^2f}{\partial{x_i}\partial{x_j}}]_{m*n}$
在点 $x^{(k)}$ 的值。函数 $f (x)$ 有极值的必要条件是在极值点处一阶导数为0，即梯度向量为0。特别是当 $H(x^{(k)})$ 是正定矩阵的时候，函数 $f (x)$ 的极值为极小值。
牛顿法利用极小点的必要条件
$\nabla{f(x)}=0$
每次迭代中从点 $x^{(k)}$ 开始，求目标函数的极小点，作为第 $k + 1$ 次迭代值 $x^{(k+1)}$ ，即假设 $x^{(k+1)}$ 满足
$\nabla{f(x^{(k+1)}}=0$
通过泰勒二阶展开式即可得
$\nabla{f(x)}=g_k+H_k(x-x^{(k)})$
其中 $H_k=H(x^{(k)})$ ，由此 $\nabla{f(x^{(k+1)}}=0$ 变成
$g_k+H_k(x^{(k+1)}-x^{(k)}) = 0$
因此
$x^{(k+1)}=x^{(k)}-H_k^{-1}g_k$
或
$x^{(k+1)}=x^{(k)}+p_k$
其中
$KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ & x^{(k+1)}=x^…$
使用 $x^{(k+1)}=x^{(k)}-H_k^{-1}g_k$ 作为迭代公式的算法就是牛顿法。

牛顿法和梯度下降法

从本质上去看，牛顿法是二阶收敛，梯度下降是一阶收敛，所以牛顿法更快。如果更通俗地说的话，比如你想找一条最短的路径走到一个盆地的最底部，梯度下降法每次只从你当前所处位置选一个坡度最大的方向走一步，牛顿法在选择方向时，不仅会考虑坡度是否够大，还会考虑你走了一步之后，坡度是否会变得更大。所以，可以说牛顿法比梯度下降法看得更远一点，能更快地走到最底部。

虽然牛顿法看起来比梯度下降法好很多，但是别忘记了牛顿法迭代过程中需要计算海森矩阵的逆矩阵，如果数据量较大的话，牛顿法的计算开销将远远大于梯度下降法。

牛顿法流程

输入

目标函数 $f (x)$ ，梯度 $g(x)=\nabla{f(x)}$ ，海森矩阵 $H (x)$ ，精度要求 $\epsilon$

输出

$f (x)$ 的极小点 $x^*$

流程

取初始点 $x^{(0)}$ ，并且让 $k = 0$
计算 $g_k=g(x^{(k)})$
如果 $||g_k||\leq\epsilon$ ，停止计算，得到近似解 $x^*=x^{(k)}$
计算 $H_k=H(x^{(k)})$ ，并求出 $p_k$
$H_kp_k=-g_k$
让 $x^{(k+1)}=x^{(k)}+p_k$
让 $k = k + 1$ ，转到第2步

在第4步求 $p_k$ 的时候， $p_k=-H_k^{-1}g_k$ ，要求求海森矩阵的逆矩阵 $H_k^{-1}$ ，计算会比较复杂。

拟牛顿法简介

在牛顿法的迭代中，需要计算海森矩阵的逆矩阵 $H^{-1}$ ，这个过程是比较复杂的，而拟牛顿法则使用了一个 $n$ 阶矩阵 $G_k=G(x^{(k)})$ 近似替代 $H_k^{-1}=H^{-1}(x^{(k)})$ ，此处不多赘述。

在这里插入图片描述

小猿取经-Egon林海峰

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
A-03 牛顿法和拟牛顿法

文章目录牛顿法和拟牛顿法牛顿法详解无约束最优化问题牛顿法迭代公式牛顿法和梯度下降法牛顿法流程输入输出流程拟牛顿法简介牛顿法和拟牛顿法牛顿法(Newton method)和拟牛顿法(quasi-Newton method)和梯度下降法一样也是求解最优化问题的常用方法，但是他们的收敛速度比梯度下降法快。牛顿法是迭代算法，每一步都需要求目标函数的海森矩阵的逆矩阵，计算复杂；拟牛顿法通过正定矩阵...
复制链接

扫一扫

专栏目录