【机器学习杂记】牛顿法与拟牛顿法

最新推荐文章于 2023-09-04 08:22:39 发布

此心安处是吾乡_

最新推荐文章于 2023-09-04 08:22:39 发布

阅读量203

点赞数

分类专栏： Machine Learning 文章标签：算法机器学习深度学习人工智能 python

本文链接：https://blog.csdn.net/wjpwjpwjp0831/article/details/107375587

版权

Machine Learning 专栏收录该内容

16 篇文章 2 订阅

订阅专栏

1.牛顿法

牛顿法可以用来解方程或者解决最优化问题。二者的本质是一样的。
假设我们要求解如下最优化问题：
$\min_{x\in R^n } f(x)$
注意 $x\in R^n$ ，直接讨论多维的情形。
为了便于理解，假设 $f (x)$ 是二元函数，则其在 $x^{(0)} = (x_1^{(0)},x_2^{(0)})^T$ 处的泰勒展开为
在这里插入图片描述
其中 $\Delta x_1=x_1-x_1^{(0)}$ , $\Delta x_2=x_2-x_2^{(0)}$ .
如果写成矩阵形式：

同理，对于多维的情况，如果我们令
$H(x)=[\frac{\partial^2f}{\partial x_i \partial x_j}]_{n\times n}$
则假设 $f (x)$ 具有二阶连续偏导数，其在 $x^{(k)}$ 处的二阶泰勒展开可表示为
$f(x)=f(x^{(k)})+g_k^T(x-x^{(k)})+\frac{1}{2}(x-x^{(k)})^TH(x^{(k)})(x-x^{(k)})$
其中 $H(x^{(k)})$ 称作Hesse矩阵， $g_k^T=(\frac{\partial f}{\partial x_1},\dots , \frac{\partial f}{\partial x_n})|_{x^{(k)}}$ ，即 $f (x)$ 的梯度向量在 $x^{(k)}$ 处的值。
当 $x$ 是极小点时，必有
$\nabla f(x)=0$
因此最优化问题仍然是解方程问题，这就是为何开头说最优化和解方程本质上是一样的。
假设第k次迭代过程从 $x^{(k)}$ 开始，求目标函数的极小点。作为第 $k + 1$ 次迭代值 $x^{(k+1)}$ ，假设其满足：
$\nabla f(x^{(k+1)})=0$
根据 $f (x)$ 的泰勒展开式，得其梯度(可以看成是对向量 $x$ 求导):
$\nabla f(x)=g_k +H(x^{(k)}) (x-x^{(k)})$
于是有
$g_k +H(x^{(k)}) (x^{(k+1)}-x^{(k)})=0$
$x^{(k+1)}=x^{(k)}-H^{-1}(x^{(k)})g_k$
以上式作为迭代公式的方法就是牛顿法。
但是有的时候求Hesse矩阵很复杂，尤其是高维的情形，于是又引出了拟牛顿法。

2.拟牛顿法

前面说计算Hasse矩阵的逆矩阵非常复杂，所以考虑用一个n阶矩阵 $G(x^{(k)})$ 来代替 $H^{-1}(x^{(k)})$ .
前面推导出下式：
$\nabla f(x)=g_k +H(x^{(k)}) (x-x^{(k)})$
令其中的 $x=x^{(k+1)}$ ,得
$\nabla f(x^{(k+1)})=g_{k+1}=g_k +H(x^{(k)}) (x^{(k+1)}-x^{(k)})$
即
$g_{k+1}-g_k =H(x^{(k)}) (x^{(k+1)}-x^{(k)})$
令 $y_k=g_{k+1}-g_k,\delta _k=x^{(k+1)}-x^{(k)}$ ,则
$y_k=H_k\delta _k$
或
$\delta _k=H_k^{-1}y_k$
因此我们要找近似的 $G_k$ 时，也必须满足上式的条件，即：
$\delta _k=G_k^{-1}y_k$
因此在拟牛顿法中每次迭代中可以更新矩阵：
$G_{k+1}=G_k+\Delta G_k$
至于如何具体地实现更新，又有了许多算法，例如DFP、BFGS、Broyden类算法等，有时间我再学习更新。