牛顿法和拟牛顿法

最新推荐文章于 2020-04-27 11:53:01 发布

「已注销」

最新推荐文章于 2020-04-27 11:53:01 发布

阅读量190

点赞数

分类专栏：数学准备

本文链接：https://blog.csdn.net/xu_ampl/article/details/94795312

版权

数学准备专栏收录该内容

9 篇文章 1 订阅

订阅专栏

牛顿法和拟牛顿法

跟最速下降法一样, 牛顿法也是求解无约束优化问题最早使用的经典算法之一. 其基本思想是用迭代点 $x_k$ 处的一阶导数 (梯度) 和二阶导数 (Hesse阵) 对目标函数进行二次函数近似, 然后把二次模型的极小点作为新的迭代点, 并不断重复这一过程, 直至求得满足精度的近似极小点
无约束最优化问题
$\min _{x \in \mathbf{R}^{n}} f(x)$ 牛顿法迭代公式推导
设 $f (x)$ 的 Hesse 阵 $G(x)=\nabla^{2} f(x)$ 连续, 其在 $x_k$ 处的泰勒展开式的前三项: $f(x)=f_{k}+g_{k}^{T}\left(x-x_{k}\right)+\frac{1}{2}\left(x-x_{k}\right)^{T} G_{k}\left(x-x_{k}\right)$ 这里 $f_{k}=f\left(x_{k}\right), g_{k}=\nabla f\left(x_{k}\right), G_{k}=\nabla^{2} f\left(x_{k}\right)=\left[\frac{\partial^{2} f}{\partial x_{i} \partial x_{j}}\right]_{\operatorname{n \times n}}$
由函数 $f$ 有极值的必要条件是在极值点处一阶导数(梯度)为 $0$ ，当Hesse阵是正定矩阵时，有极小值.对 $f (x)$ 求一阶导得 $\nabla f(x)=g_{k}+G_{k}\left(x-x_{k}\right)=0$ 若 $G_{k}$ 非奇异，由上式得牛顿法的迭代公式 $x_{k+1}=x_{k}-G_{k}^{-1} g_{k}$ 每次迭代需求Hesse阵的逆 $G_{k}^{-1}$ ，实际中可通过先解 $G_{k} d_{k}=-g_{k}$ 得 $d_k$ ，然后令 $x_{k+1}=x_{k}+d_{k}$ 来避免求逆.
迭代终止：计算 $g_{k}=\nabla f\left(x_{k}\right)$ ，若 $\left\|g_{k}\right\| \leq \varepsilon$ ，停算输出 $x^{*} \approx x_{k}$
拟牛顿法
牛顿法的优点是具有二阶收敛速度，但当Hesse阵 $G\left(x_{k}\right)=\nabla^{2} f\left(x_{k}\right)$ 不正定时,不能保证所产生的方向是目标函数在 $x_k$ 处的下降方向. 特别 $G\left(x_{k}\right)$ 奇异时，算法无法继续进行下去，尽管修正牛顿法可以克服这一缺陷, 但其中的修正参数 $\mu_{k}$ 的选取很难把握, 过大或过小都会影响到收敛速度. 此外, 牛顿法的每一迭代步都需要目标函数的二阶导数, 即 Hesee 阵, 对于大规模问题其计算量是惊人的.
即将介绍的拟牛顿法克服了这些缺点, 并且在一定条件下这类算法仍然具有较快的收敛速度 — 超线性收敛速度.
拟牛顿法的基本思想是在牛顿法中用某个近似矩阵 $B_k$ 取代Hesee阵 $G_{k}=\nabla^{2} f\left(x_{k}\right)$ . 通常 $B_k$ 应具有下面的三个特点
$(1)$ $B_{k} \approx G_{k}$ , 使相应的算法产生的方向近似于牛顿方向，以确保算法有较快的收敛速度.
$(2)$ 所有的 $B_k$ 是对称正定的，从而使得算法所产生的搜索方向是函数 $f$ 在 $x_k$ 处的下降方向.
$(3)$ 矩阵 $B_k$ 更新规则相对简单，即通常采用一个秩 $1$ 或秩 $2$ 矩阵进行校正.
设 $\mathbb{R}^{n} \rightarrow \mathbb{R}$ 在开集 $\subset \mathbb{R}^{n}$ 上二次连续可微， $f$ 在 $x_{k+1}$ 处二次近似模型为： $\approx f\left(x_{k+1}\right)+g_{k+1}^{T}\left(x-x_{k+1}\right)+\frac{1}{2}\left(x-x_{k+1}\right)^{T} G_{k+1}\left(x-x_{k+1}\right)$ 对上式求导得 $\approx g_{k+1}+G_{k+1}\left(x-x_{k+1}\right)$ 令 $x=x_{k}$ ，位移 $s_{k}=x_{k+1}-x_{k}$ ，梯度差 $y_{k}=g_{k+1}-g_{k}$ ，则有 $G_{k+1} s_{k} \approx y_{k}\qquad(1)$ 构造Hesse阵的近似矩阵 $B_k$ 满足这种关系，即
$B_{k+1} s_{k}=y_{k}$ 上式称作拟牛顿方程或拟牛顿条件，令 $H_{k+1}=B_{k+1}^{-1}$ ，则得到拟牛顿方程的另一形式： $H_{k+1} y_{k}=s_{k}\qquad(2)$ 其中 $H_{k+1}$ 是Hesse阵逆的近似.
由牛顿法搜索方向为 $d_{k}=-G_{k}^{-1} g_{k}$ ，因此拟牛顿法的搜索方向 $d_{k}=-H_{k} g_{k}$ 或 $B_{k} d_{k}=-g_{k}$ 确定
根据 $B_k$ 的第三个特点，可令 $B_{k+1}=B_{k}+E_{k}, \quad H_{k+1}=H_{k}+D_{k} \qquad (3)$ 其中 $E_{k}, D_{k}$ 是秩 $1$ 或秩 $2$ 矩阵。
将拟牛顿方程 $(1)$ 和校正规则 $(3)$ 确立的方法称为拟牛顿法

对称秩 $1$ 校正公式，在 $(3)$ 中取 $E_{k}=\alpha u_{k} u_{k}^{T}$ (秩 $1$ 矩阵性质)，其中 $\alpha \in \mathbb{R}, u_{k} \in \mathbb{R}^{n}$ 由拟牛顿方程 $(1)$ 得 $\left(B_{k}+\alpha u_{k} u_{k}^{T}\right) s_{k}=y_{k}$ 即 $\alpha\left(u_{k}^{T} s_{k}\right) u_{k}=y_{k}-B_{k} s_{k} \qquad(4)$ $\left(u_{k}^{T} s_{k}\right)$ 计算结果为一常数，因此上式表明向量 $u_k$ 平行于 $\left(y_{k}-B_{k} s_{k}\right)$ ，即存在常数 $\beta$ 使得 $u_{k}=\beta\left(y_{k}-B_{k} s_{k}\right)$ ,故有 $E_{k}=\alpha \beta^{2}\left(y_{k}-B_{k} s_{k}\right)\left(y_{k}-B_{k} s_{k}\right)^{T}$ 于是，由 $(4)$ 得 $\alpha \beta^{2}\left[\left(y_{k}-B_{k} s_{k}\right)^{T} s_{k}\right]\left(y_{k}-B_{k} s_{k}\right)=\left(y_{k}-B_{k} s_{k}\right)$
若 $\left(y_{k}-B_{k} s_{k}\right)^{T} s_{k} \neq 0$ ，可取 $\alpha \beta^{2}\left[\left(y_{k}-B_{k} s_{k}\right)^{T} s_{k}\right]=1$ ，即 $\alpha \beta^{2}=\frac{1}{\left(y_{k}-B_{k} s_{k}\right)^{T} s_{k}}, \quad E_{k}=\frac{\left(y_{k}-B_{k} s_{k}\right)\left(y_{k}-B_{k} s_{k}\right)^{T}}{\left(y_{k}-B_{k} s_{k}\right)^{T} s_{k}}$ 故得称秩 $1$ 校正公式: $B_{k+1}=B_{k}+\frac{\left(y_{k}-B_{k} s_{k}\right)\left(y_{k}-B_{k} s_{k}\right)^{T}}{\left(y_{k}-B_{k} s_{k}\right)^{T} s_{k}}$ 类似可得 $H_{k+1}=H_{k}+\frac{\left(s_{k}-H_{k} y_{k}\right)\left(s_{k}-H_{k} y_{k}\right)^{T}}{\left(s_{k}-H_{k} y_{k}\right)^{T} y_{k}}$

BFGS算法
其基本思想是：在上节拟牛顿法 $(3)$ 式中修正矩阵 $E_k$ 为秩 $2$ 矩阵： $E_{k}=\alpha u_{k} u_{k}^{T}+\beta v_{k} v_{k}^{T}$ 其中 $u_{k}, v_{k} \in \mathbb{R}^{n}$ 是待定向量， $\alpha, \beta \in \mathbb{R}$ 是待定实数，于是拟牛顿方程 $(1)$ 可得 $\left(B_{k}+\alpha u_{k} u_{k}^{T}+\beta v_{k} v_{k}^{T}\right) s_{k}=y_{k}$ 或 $\alpha\left(u_{k}^{T} s_{k}\right) u_{k}+\beta\left(v_{k}^{T} s_{k}\right) v_{k}=y_{k}-B_{k} s_{k}$ 满足上式的向量 $u_k$ 和 $v_k$ 不唯一，可取 $u_k$ 和 $v_k$ 分别平行于 $B_{k} s_{k}$ 和 $y_k$ ，即令 $u_{k}=\gamma B_{k} s_{k}, v_{k}=\theta y_{k}$ ，其中 $\gamma, \theta$ 是待定参数，于是我们有 $E_{k}=\alpha \gamma^{2} B_{k} s_{k} s_{k}^{T} B_{k}+\beta \theta^{2} y_{k} y_{k}^{T}$ 将 $u_k$ 和 $v_k$ 的表达式代入 $\alpha\left(u_{k}^{T} s_{k}\right) u_{k}+\beta\left(v_{k}^{T} s_{k}\right) v_{k}=y_{k}-B_{k} s_{k}$ 得 $\alpha\left[\left(\gamma B_{k} s_{k}\right)^{T} s_{k}\right]\left(\gamma B_{k} s_{k}\right)+\beta\left[\left(\theta y_{k}\right)^{T} s_{k}\right]\left(\theta y_{k}\right)=y_{k}-B_{k} s_{k}$ 整理得 $\left[\alpha \gamma^{2}\left(s_{k}^{T} B_{k} s_{k}\right)+1\right] B_{k} s_{k}+\left[\beta \theta^{2}\left(y_{k}^{T} s\right)-1\right] y_{k}=0$ 此时可令 $\alpha \gamma^{2}\left(s_{k}^{T} B_{k} s_{k}\right)+1=0$ 及 $\beta \theta^{2}\left(y_{k}^{T} s\right)-1=0$ ，即 $\alpha \gamma^{2}=-\frac{1}{s_{k}^{T} B_{k} s_{k}}, \quad \beta \theta^{2}=\frac{1}{y_{k}^{T} s_{k}}$ 从而得到如下得BFGS秩 $2$ 修正公式： $B_{k+1}=B_{k}-\frac{B_{k} s_{k} s_{k}^{T} B_{k}}{s_{k}^{T} B_{k} s_{k}}+\frac{y_{k} y_{k}^{T}}{y_{k}^{T} s_{k}}$ 显然，若 $B_k$ 对称，校正后的 $B_{k+1}$ 也对称。
引理：设 $B_k$ 对称正定， $B_{k+1}$ 由BFGS校正公式确定，那么 $B_{k+1}$ 对称正定的充要条件是 $y_{k}^{T} s_{k}>0$

DFP算法
类似于BFGS校正公式的推导，可得DFP校正公式如下
$H_{k+1}=H_{k}-\frac{H_{k} y_{k} y_{k}^{T} H_{k}}{y_{k}^{T} H_{k} y_{k}}+\frac{s_{k} s_{k}^{T}}{s_{k}^{T} y_{k}}$ 显然，若 $H_k$ 对称，校正后的 $H_{k+1}$ 也对称
引理：设 $H_k$ 对称正定， $H_{k+1}$ 由DFP校正公式确定，那么 $H_{k+1}$ 对称正定的充要条件是 $s_{k}^{T} y_{k}>0$

Broyden族算法
由BFGS和DFP校正的凸组合产生的一类校正族 $\begin{aligned} B_{k+1}^{\theta} &=\theta_{k} B_{k+1}^{\mathrm{DFP}}+\left(1-\theta_{k}\right) B_{k+1}^{\mathrm{BFGS}} \\ &=B_{k}-\frac{B_{k} s_{k} s_{k}^{T} B_{k}}{s_{k}^{T} B_{k} s_{k}}+\frac{y_{k} y_{k}^{T}}{s_{k}^{T} y_{k}}+\theta_{k} u_{k} u_{k}^{T} \end{aligned}$ 其中， $\theta_{k}$ 为实参数， $u_k$ 由下式定义： $u_{k}=\sqrt{s_{k}^{T} B_{k} s_{k}}\left(\frac{y_{k}}{y_{k}^{T} s_{k}}-\frac{B_{k} s_{k}}{s^{T} B_{k} s_{k}}\right)$ 这类校正公式称为Broyden族，可以发现当 $\theta_{k}=0$ ，即得到BFGS公式，当 $\theta_{k}=1$ 得到DFP公式
对应地，关于 $H_k$ 的Broyden族校正公式为 $\begin{aligned} H_{k+1}^{\phi} &=\phi_{k} H_{k+1}^{\mathrm{BFGS}}+\left(1-\phi_{k}\right) H_{k+1}^{\mathrm{DFP}} \\ &=H_{k}-\frac{H_{k} y_{k} y_{k}^{T} H_{k}}{y_{k}^{T} H_{k} y_{k}}+\frac{s_{k} s_{k}^{T}}{s_{k}^{T} y_{k}}+\phi_{k} v_{k} v_{k}^{T} \end{aligned}$ 其中 $\phi_{k}$ 为实参数， $v_k$ 由下式定义： $v_{k}=\sqrt{y_{k}^{T} H_{k} y_{k}}\left(\frac{s_{k}}{y_{k}^{T} s_{k}}-\frac{H_{k} y_{k}}{y_{k}^{T} H_{k} y_{k}}\right)$ 可以证明参数 $\theta_{k}$ 和 $\phi_{k}$ 之间的关系为 $\theta_{k}=\frac{1-\phi_{k}}{1-\phi_{k}\left(1-\mu_{k}\right)}$
其中 $\mu_{k}=\frac{\left(s_{k}^{T} B_{k} s_{k}\right)\left(y_{k}^{T} H_{k} y_{k}\right)}{\left(s_{k}^{T} y_{k}\right)^{2}}$
$u_{k}^{T} s_{k}=0$ 和 $v_{k}^{T} y_{k}=0$ ,因此Broyden族校正公式于任何参数 $\theta_{k}$ 和 $\phi_{k}$ 都满足牛顿方程 $(1)$ 和 $(2)$