无约束最优化方法

Shilong Wang

已于 2024-01-08 09:49:55 修改

阅读量1.2k

点赞数

分类专栏：最优化文章标签：算法人工智能线性代数矩阵

于 2022-08-08 19:13:42 首次发布

本文链接：https://blog.csdn.net/wsl_longwudi/article/details/126234192

版权

最优化专栏收录该内容

5 篇文章 0 订阅

订阅专栏

无约束优化方法

求解无约束最优化的基本思路

给定初始点 $x_0\in \mathbb{R}^n,k=0$
判断当前解是否满足终止准则，若满足则停止迭代，若不满足则转3.
确定 $f (x)$ 在 $x_k$ 点的下降方向
确定步长 $\lambda_k$ ，使 $f(x_k+\lambda_k d_k)$ 较之 $f(x_k)$ 有某种意义的下降
令 $x_{k+1}=x_k+\lambda_k d_k,k=k+1$ ，转2.

终止准则

对于无约束优化问题，适用于收敛速度较慢的算法准则为 $\Vert{\nabla f(x_k)}\Vert\leqslant \varepsilon$
当算法具有超线性收敛性时，较为合适的准则为 $\Vert{x_{k+1}-x_k}\Vert\leqslant \varepsilon$
对于快速收敛的算法，相当有效的准则为 $\vert{f(x_{k+1})-f(x_k)}\vert\leqslant \varepsilon$

非凸优化变为凸优化

修改目标函数，用凸函数近似目标函数
放松约束条件，将可行域替换为其凸包(集合内所有点的凸组合)
求解拉格朗日对偶问题，无论原问题是否为凸优化问题，其拉格朗日对偶问题一定是凸优化问题

有约束问题转化为无约束问题

具有强对偶性质的优化问题可以求解其拉格朗日对偶问题，进而得到原问题的最优解
罚函数法：根据约束条件构造惩罚函数，之后按照无约束优化问题求解

最速下降法，牛顿法，拟牛顿法统一公式描述

$\begin{cases}x_{k+1}=x_{k}+\lambda d_{k}\\ d_{k}=-D_{k}\nabla f\left( x_{k}\right) \end{cases}$

对于最速下降法 $D_k=I$
对于牛顿法 $D_{k}=\left[ \nabla ^{2}f\left( x_{k}\right) \right] ^{-1}$
对于拟牛顿法 $D_k$ 为Hesse矩阵的逆矩阵的逼近矩阵

一维线搜索

精确一维线搜索

二分法
Dichotomous法
Fibonacci法
黄金分割法
Shubert_Piyavskii法

不精确一维线搜索

Goldstein准则

$f(x^{(k+1)})-f(x^{(k)})\leq \rho \lambda_k \nabla f^T(x^{(k)})d^{(k)}\\ (2) f(x^{(k+1)})-f(x^{(k)})\geq \rho \lambda_k \nabla f^T(x^{(k)})d^{(k)}$

Wolfe准则

$\begin{array}{l}Inexact-search-algorithm\\ {\Large\bf{1.}} choose\ initial\ point\ x_{0}\ ,\ initial\ section\left[ 0,\lambda \max \right] ,\rho\in \left( 0,\dfrac{1}{2}\right) ,\sigma\in \left( \rho,1\right) \\ Let\ \lambda _{L}=0,\lambda_U=\lambda_max ,calculate\ \phi _{L}=f\left( x_{k}\right) ,\phi _{L}'=g^{T}\left( x_{k}\right) d_{k},\lambda _{M}\in \left( \lambda _{L},\lambda_U\right) \\ {\Large\bf{2.}} \phi \left( \lambda \right) =f\left( x_{k}+\lambda d_k\right)\ If\ \phi \left( \lambda _{M}\right) -\phi \left( \lambda_L \right) \leq \rho \alpha \phi '\left( \lambda_{L}\right) ,turn\ to\ 3.\\ Otherwise\ accordng\ to\ quadratic\ interpolation\left( 2\ points,1\ derivative\right) \\ Assuming\ \phi \left( \lambda \right) =a\lambda ^{2}+b\lambda +c\quad \phi '\left( \lambda \right) =2a\lambda +b\\ \begin{cases}\phi \left( \lambda _{L}\right) =a\lambda _{L}^{2}+b\lambda _{L}+c\\ \phi \left( \lambda_{M}\right) =a\lambda _{M}^{2}+b\lambda_M+c\\ \phi '\left( \lambda _{L}\right) =2a\lambda _{L}+b\end{cases}\\ \Rightarrow\begin{cases}\phi \left( \lambda_{M}\right) -\phi \left( \lambda _{L}\right) =a\left( \lambda_M ^{2}-\lambda _{L}^{2}\right) +b\left( \lambda_M-\lambda_L\right) \\ \left( \lambda_M-\lambda_{L}\right) \phi '\left( \lambda_{L}\right) =2a\lambda _{L}\left( \lambda_M-\lambda_L\right) +b\left( \lambda_M-\lambda_L\right) \end{cases}\\ \Rightarrow \left( \lambda_M-\lambda_{L}\right) \phi '\left( \lambda_{L}\right) -\phi \left( \lambda_{M}\right) +\phi \left( \lambda_{L}\right) =-a\left( \lambda_M-\lambda_{L}\right) ^{2}\\ \Rightarrow \begin{cases}a=-\dfrac{\left( \lambda_M-\lambda _{L}\right) \phi '\left( \lambda_{L}\right) -\phi \left( \lambda_M\right) +\phi \left( \lambda_L\right) }{\left( \lambda_M-\lambda_{L}\right) ^{2}}\\ b=\phi '\left( \lambda_{L}\right) -2\lambda_{L}a\end{cases}\\ -\dfrac{b}{2a}=\lambda_{L}+\dfrac{1}{2}\cdot \dfrac{\phi '\left( \lambda_{L}\right) \left( \lambda_M-\lambda _{L}\right) ^{2}}{\left( \lambda_M-\lambda_{L}\right) \phi '\left( \lambda_{L}\right) -\phi \left( \lambda_M\right) +\phi \left( \lambda_L\right) }\\ Let\ \lambda_U=\lambda_{M},\lambda_M=\overline{\lambda},turn\ to\ 2.\\ {\Large\bf{3.}}Calculate\ \phi '\left( \lambda_M\right) =g\left( x_{k}+\lambda_M d_{k}\right) ^{T}d_{k},If\ \phi '\left( \lambda_{M}\right) \geqslant \sigma\phi '\left( \lambda _{L}\right) ,let\lambda _{k}=\lambda_{M}, return; \\Otherwise\ according\ to\ quadratic\ intapdation \left( 1\ point,2\ derivatives\right) \\ \begin{cases}\phi \left( \lambda _{L}\right) =a\lambda _{L}^{2}+b\lambda_L+c\\ \phi '\left( \lambda_L\right) =2a\lambda_L+b\\ \phi '\left( \lambda_{M}\right) =2a\lambda_{M}+b \end{cases}\\ \Rightarrow\begin{cases} a=\dfrac{\phi '\left( \lambda_M\right) -\phi '\left( \lambda_L\right) }{2( \lambda_M-\lambda_L)}\\ b= \phi '\left( \lambda_M\right) -2a\lambda_M\end{cases}\\ \overline{\lambda }=-\dfrac{b}{2a}=\lambda_M-\dfrac{\phi '\left( \lambda_M\right) \left( \lambda_M-\lambda_L\right) }{\phi '\left( \lambda_{M}\right) -\phi '\left( \lambda_L\right) }\\ Let\ \lambda _{L}=\lambda_M,\lambda _M=\overline{\lambda},turn\ to\ 2.\end{array}$

多维搜索

不使用导数的方法

坐标轮换法

坐标轴作为搜索方向,沿方向 $d_1, d_2,\cdots ,d_n$ 搜索，其中 $d_j$ 是除第j个位置为1，别的位置为0的向量，每次只改变第j个变量，其它变量保持不动。

如果函数可微，梯度存在，最小化坐标方向时优先选择偏导数成份幅度最大的方向进行最小化
这种顺序一维最小化有时称为Gauss-Seidel迭代，可用于解线性方程组
该方法与最速下降法的收敛速度相当

函数可微时，方法会收敛到梯度为0的点，但不可微时，则可能会在非最优点停止。

坐标轮换法

这种沿方向 $x_{k+1}-x_{k}$ 搜索的方式在坐标轮换方法中经常使用，有时函数可微时也这样，并且固定𝒌次迭代后进行一次这样的搜索，通常会加速收敛，称为加速步。
HJ方法

使用导数的方法

最速下降法(梯度下降)

定理1 $f:\mathbb{R}^n\to \mathbb{R}$ 在 $x$ 处可微，假设 $\nabla f(x)\neq 0$ ，则下述问题的解即为 $f (x)$ 在 $x$ 处的最速下降方向
$\begin{aligned}\min _{d}f'\left( x;d\right) =\lim _{\lambda \rightarrow 0^{+}}\dfrac{f\left( x+\lambda d\right) -f\left( x\right) }{\lambda }=\nabla f\left( x\right) ^{T}d\quad s.t. \left\| d\right\| =1\\ \Rightarrow \overline{d}=-\dfrac{\nabla f\left( x\right) }{\left\| \nabla f\left( x\right) \right\| }\end{aligned}$
前后两次搜索方向正交
$\begin{array}{l}x_{k+1}=x_k+\lambda _{k}d_k\\ \lambda _{k}=\arg \min _{\lambda }f\left( x_k+\lambda d_k\right) \\ \dfrac{df}{d\lambda }=\nabla f^{T}\left( x_k +\lambda d_k\right) d_k=d^{T}_{k+1}d_k=0\end{array}$

牛顿法(二阶导数)

使用二阶泰勒展开局部近似

一维：
$\begin{array}{l}q\left( x\right) =f\left( x_{k}\right) +\left( x-x_{k}\right) f'\left( x_{k}\right) +\dfrac{\left( x-x_{k}\right) ^{2}}{2}f''\left( x_{k}\right) \\ q'\left( x\right) =f'\left( x_{k}\right) +\left( x-x_{k}\right) f''\left( x_{k}\right) =0\\ \Rightarrow x_{k+1}=x_{k}-\dfrac{f'\left( x_{k}\right) }{f''\left( x_{k}\right) }\end{array}$
多维：
$\begin{array}{l}q\left( x\right) =f\left( x_{k}\right) +\nabla f^{T}\left( x_{k}\right) \left( x-x_{k}\right) +\dfrac{1}{2}\left( x-x_{k}\right) ^{T}H\left( x_{k}\right) \left( x-x_{k}\right) \\ q'\left( x\right) =\nabla f\left( x_{k}\right) +H\left( x_{k}\right) \left( x-x_{k}\right) =0\\ \Rightarrow x_{k+1}=x_{k}-H^{-1}\left( x_{k}\right) \nabla f\left( x_{k}\right) \end{array}$
下面给出基本 Newton 方法的收性定理．
定理2（基本 Newton 方法的收敛性）
设 $f(x)\in C^2, f ( x )$ 的Hesse矩阵 $G (x)$ 满足 Lipschitz条件，即存在 $\beta >0$ ，对任给的 $x$ 与 $y$ ，有 $\lVert G(x)-G(y)\rVert\leqslant \beta\lVert x-y\rVert$ ．若 $x_0$ 充分接近 $f (x)$ 的局部极小点 $x^{\ast}$ ，且 $G^\ast$ 正定，则 Newton方法对所有的 $k$ 有定义，并以二阶收敛速度收敛．
证明因为 $g (x)$ 是向量函数，下面证明 $g (x)$ 在 $x_k$ 处的Taylor展开式为
$g\left( x_{k}+d\right) =g_{k}+G_{k}d+O\left( \left\| d\right\| ^{2}\right) \tag{10}$
其中 $d=x-x_k$ 。设 $g (x)$ 的分量为 $g_i(x)$ ，矩阵 $G (x)$ 的元素为 $G_{ij}(x)$ 。 $g_i(x)$ 在点 $x_k$ 的Taylor展开式为
$g_{i}\left( x_{k}+d\right) =g_{i}\left( x_{k}\right) +\sum ^{n}_{j=1}G_{ij}\left( x_{k}+\theta _{i}d\right) d_j\quad \theta _{i}\in \left( 0,1\right) \tag{11}$
其中 $d_j$ 为 $d$ 的分量，从而
$g_{i}\left( x_{k}+d\right) -g_{i}\left( x_{k}\right) -\sum ^{n}_{j=1}G_{ij}\left( x_{k}\right) d_j=\sum ^{n}_{j=1}\left[ G_{ij}\left( x_{k}+\theta _{i}d\right) -G_{ij}\left( x_{k}\right) \right] d_{j}$
由矩阵 $G (x)$ 满足Lipschitz条件知，对任意i,j，有
$\left| G_{ij}\left( x\right) -G_{ij}\left( y\right) \right| \leq \beta \left\| x-y\right\|$
另外， $\Vert\theta_i d\Vert\leqslant \Vert d \Vert,\lvert d_j\rvert\leqslant \lVert d \rVert$ ，则
$\left| g_{i}\left( x_{k}+d\right) -g_{i}\left( x_{k}\right) -\sum ^{n}_{j=1}a_{ij}\left( x_{k}\right) d_{j}\right| \leq \beta \theta _{i}\left\| d\right\| \sum ^{n}_{j=1}\left| d_j\right| \leq \beta n\left\| d\right\| ^{2}$
从而
$g_{i}\left( x_{k}+d\right) =g_{i}\left( x_{k}\right) +\sum ^{n}_{j=1}G_{ij}\left( x_{k}\right) d_{j}+O\left( \left\| d\right\| ^{2}\right)$
即 $g(x_k+d)$ 在点 $x_k$ 的Taylor展开式(10)成立。
若取 $d=-h_k=x^{\ast}-x_k$ ，(10)式为
$g^{\ast}=g_k-G_k h_k+O(\lVert h_k\rVert^2)=0\tag{12}$
由 $G (x)$ 的连续性知，存在 $x^\ast$ 的一个邻域，当 $x_k$ 在邻域中，如果 $\Vert x_k-x^{\ast}\Vert\leqslant \delta$ 时， $G_k$ 正定， $G_k^{-1}$ 有上界，故第 $k$ 次迭代存在。(12)式两边乘以 $G_k^{-1}$ ，得
$\begin{aligned}G_{k}^{-1}g_{k}-h_{k}+O\left( \left\| h_{k}\right\| ^{2}\right) &=-d_{k}-h_{k}+O\left( \left\| h_k\right\| ^{2}\right) \\ &=-h_{k+1}+O\left( \left\| h_{k}\right\| ^{2}\right) =0 \end{aligned}$
由此知存在 $\gamma >0$ ，使
$\left\| h_{k+1}\right\| \leq \gamma \left\| h_{k}\right\| ^{2}\tag{13}$
下面证明 $x_{k+1}$ 也满足 $\lVert x_{k+1}-x^{\ast}\rVert\leqslant \delta$ 。由(13)式有
$\left\| h_{k+1}\right\| \leq \gamma \left\| h_{k}\right\| ^{2}\leq \gamma\delta \left\| h_{k}\right\|$
只要 $x_k$ 充分接近 $x^{\ast}$ 可以保证 $\gamma\delta<1$ ，故
$\left\| x_{k+1}-x^{\ast }\right\| =\left\| h_{k+1}\right\| <\left\| h_{k}\right\| \leq \delta$
则 $x_{k+1}$ 也在此邻域中，第 $k + 1$ 次迭代有意义。由数学归纳法知，方法对所有 $k$ 有定义，且 $\lVert h_{k+1}\rVert\leqslant (\gamma\delta)^{k+1}\lVert h_0\rVert$ ，故 $\lVert h_k\rVert\to 0$ 。基本Newton迭代收敛，由(13)式知方法二阶收敛。
该定理给出了基本Newton法的局部收敛性，也就是说，只有当迭代点充分接近 $x^{\ast}$ 时，基本Newton法的收敛性才能保证。

共轭方向法-二次终止性

共轭方向法就是采用一组共轭方向作为连续搜索方向的优化方法。共轭方向法的推导过程和牛顿法一样，也是先基于二次目标函数，然后推广到一般目标函数的。

子空间扩展定理

设 $G$ 为 $n\times n$ 对称正定矩阵， $d_0,d_1,\cdots,d_{n-1}$ 为 $G$ 的共轭向量组，对于
$f\left( x\right) =\dfrac{1}{2}x^{T}Gx+b^{T}x$
由任意 $x_0$ 出发，依次沿直线 $x_k+\lambda d_k$ 作精确线搜索得 $\lambda_k(k=0,\cdots,n-1)$ ，则
$g_k^Td_j=0,j=0,\cdots,k-1$
其中 $g_k=Gx_k+b$ ，且 $x_k$ 是 $f (x)$ 在集合
$X_{k}=\left\{ x{\mid} x\in \mathbb{R} ^{n},x=x_{0}+\sum ^{k-1}_{j=0}\alpha _{j}d_j\ ,\ \alpha _{j}\in \mathbb{R},j=0,\cdots ,k-1\right\}$
上的极小点。特别地， $x_n$ 是 $f (x)$ 在 $\mathbb{R}^n$ 中的极小点。

${\bf prof:}$ 对于定理的第一个结论，由精确线搜索的结果知
$\lambda _{k}=\arg\min_{\lambda} f\left( x_{k}+\lambda d_{k}\right) \\ \Rightarrow \dfrac{df\left( x_{k}+\lambda d_k\right) }{d\lambda }{\LARGE\mid} _{\lambda=\lambda_ k}=\nabla f^{T}\left( x_{k}+\lambda _{k}d_{k}\right) d_{k}=0 \Rightarrow g_{k+1}^{T}d_{k}=0$
注意到 $g_i=Gx_i+b\quad x_{i+1}-x_i=\lambda_i d_i$
$\begin{array}{l} g_{k}=g_{j+1}+\sum ^{k-1}_{i=j+1}\left( g_{i+1}-g_{i}\right) =g_{j+1}+G\sum ^{k-1}_{i=j+1}\left( x_{i+1}-x_{i}\right) \\\quad=g_{j+1}+G\sum ^{k-1}_{i=j+1}\lambda _{i}d_{i}\\ g_{k}^{T}d_{j} =g_{j+1}^{T}d_{j}+\sum ^{k-1}_{i=j+1}\alpha _{i}d_i^{T}Gd_{j}=0 \\ \end{array}$
对于定理的第二个结论，只需证明 $\forall x\in X_{k},f\left( x\right) \geq f\left( x_{k}\right)$

注意到
$x_{k}=x_{0}+\sum ^{k-1}_{j=0}\lambda _jd_j,x=x_{0}+\sum ^{k-1}_{j=0}\alpha_{j}d_j,\forall x\in X_{k}$
注意到 $G$ 的正定性和第一条结论，有
$\begin{array}{l} f\left( x\right) =f\left( x_{k}\right) +\left( x-x_{k}\right) ^{T}g_{k}+\dfrac{1}{2}\left( x-x_{k}\right) ^{T}G\left( x-x_{k}\right) \\ \geqslant f\left( x_{k}\right) +\left( x-x_{k}\right) ^{T}g_{k}=f\left( x_{k}\right) +\sum ^{k-1}_{j=0}\left( \alpha _{j}-\lambda _{j}\right) d_{j}^{T}g_{k}=f\left( x_{k}\right) \end{array}$

共轭梯度法

共轭梯度法的基本原理：在寻优过程中利用当前点 $x_k$ 处的梯度向量和前一点 $x_{k-1}$ 处的搜索方向 $d_{k-1}$ 对最速下降方向进行如下修正
$d_{k}=-\nabla f(x_k)+\beta_k d_{k-1}$
并保证新的搜索方向 $d_k$ 和之前的搜索方向满足共轭关系。

对正定二次函数的共轭梯度法

共轭方向是根据正定二次函数 $f\left( x\right) =\dfrac{1}{2}x^{T}Gx+b^{T}x$ 的梯度来构造的。

取 $d_0=-g_0$ 。假定已求出关于 $G$ 共轭的方向 $d_0,d_1,\cdots,d_{k-1}$ ，下面求 $d_k$ ，使其与 $d_0,d_1,\cdots,d_{k-1}$ 共轭。

由子空间扩展定理知， $d_k,g_k$ 均不在 $d_0,d_1,\cdots,d_{k-1}$ 张成的子空间内， $g_k$ 可与 $d_0,d_1,\cdots,d_{k-1}$ 张成一个 $k + 1$ 维子空间，故取 $d_k$ 为 $g_k,d_0,d_1,\cdots,d_{k-1}$ 的线性组合，其中 $g_k$ 的系数取为 $- 1$ ，则
$d_{k}=-g_{k}+\sum ^{k-1}_{i=0}\beta _{i}^{\left( k-1\right) }d_i$
确定系数 $\beta_0^{(k-1)},\cdots,\beta_{k-1}^{(k-1)}$ 使得
$d_{k}^{T}Gd_j=0,j=0,\ldots ,k-1$
代入得
$\left( -g_{k}+\sum ^{k-1}_{i=0}\beta _{i}^{\left( k-1\right) }d_{i}\right) ^{T}Gd_j=0$
由 $d_i,d_j(i\neq j)$ 的共轭性得
$\beta _{j}^{\left( k-1\right) }=\dfrac{g_{k}Gd_j}{d_{i}^{T}Gd_j},\quad j=0,\ldots ,k-1\\$
下面证明 $\beta^{(k-1)_j}=0(j=0,\ldots ,k-2)$ ，从而化简式子

$\begin{array}{l} x_{j+1}-x_{j}=\lambda _{j}d_{j}\left( \lambda j >0\right) ,g_{j}=Gx_{j}+b\\ \lambda _{j}g_{k}^{T}Gd_{j}=g_{k}^{T}G\left( x_{j+1}-x_{j}\right) =g_{k}^{T}\left( g_{j+1}-g_{j}\right) \\ \because g_{k}^{T}g_{j}=0,j=0,\ldots ,k-1\\ \therefore g_{k}^{T}\left( g_{j+1}-g_{j}\right) = \begin{cases}0,&j=0,\ldots ,k-2\\ g_{k}^{T}\left( g_{k}-g_{k-1}\right) ,&j=k-1\end{cases}\\ \Rightarrow \beta _{j}^{\left( k-1\right) }=0\left( j=0,\ldots ,k-2\right) \\ \therefore d_{k}=-g_{k}+\beta _{k-1}^{\left( k-1\right) }d_{k-1}\\ \end{array}$
由精确线搜索的结果，对 $\beta _{k-1}^{( k-1)}$ 表达式分子分母同乘 $\lambda_{k-1}$
$\begin{array}{l} \lambda _{k-1}d_{k-1}^{T}Gd_{k-1}=d_{k-1}^{T}\left( g_k-g_{k-1}\right) =-d_{k}^{T}g_{k-1}\\ =\left( g_{k-1}-\beta _{k-2}^{\left( k-2\right) }d_{k-2}\right) ^{T}g_{k-1}\\ =g_{k-1}^{T}g_{k-1}\quad (k\geqslant 2)\\ \end{array}$
对 $k = 1$ ，有
$\lambda_0d_0^TGd_0=d_0^T(g_1-g_0)=g_0^Tg_0$

$\Rightarrow \beta _{k-1}^{\left( k-1\right) }=\dfrac{g_{k}^{T}\left( g_{k}-g_{k-1}\right) }{g_{k-1}^{T}g_{k-1}}$

共轭梯度方法的性质

考虑正定二次函数
$f\left( x\right) =\dfrac{1}{2}x^{T}Gx+b^{T}x$
对任意初始点 $x_0$ ，取 $d_0=-g_0$ ，采用精确线搜索的共轭梯度法具有二次终止性；对所有 $0\leqslant k\leqslant m,m<n$ ，下列关系成立：

共轭方向： $d_k^TGd_i=0,i=0,\cdots,k-1$

正交向量： $g_k^Tg_i=0,i=0,\cdots,k-1$

下降性： $d^T_k g_k=-g_k^Tg_k$

以及
${\rm span}\{g_0,\cdots,g_k\}={\rm span}\{g_0,Gg_0,\cdots,G^kg_0\}\\ {\rm span}\{d_0,\cdots,d_k\}={\rm span}\{g_0,Gg_0,\cdots,G^kg_0\}$
证明：由 $g_k^Td_j=0,j=0,\cdots,k-1$ 和 $d_{k}=-g_{k}+\sum ^{k-1}_{i=0}\beta _{i}^{\left( k-1\right) }d_i$ 可得
$g_{k}^Tg_i=g^T_k(-d_i+\sum ^{k-1}_{j=0}\beta _{j}^{\left( k-1\right) }d_j)=0$
由共轭梯度方法的定义有
$d^T_k g_k=(-g_k+\beta_{k-1}d_{k-1})^Tg_k=-g^T_kg_k<0$
由数学归纳法证明剩余结论，当 $k = 0$ 时，成立

假设对于 $k=j(1\leqslant j<m)$ 成立
$g_j\in {\rm span}\{g_0,Gg_0,\cdots,G^j g_0\}\\ d_j\in {\rm span}\{g_0,Gg_0,\cdots,G^j g_0\}$
由后一式
$Gd_j\in {\rm span}\{Gg_0,G^2g_0,\cdots,G^{j+1} g_0\}$
再由 $x_{j+1}=x_j+\lambda_j d_j$ 得 $Gx_{j+1}=Gx_j+\lambda_j Gd_j$ ，从而 $g_{j+1}=g_j+\lambda_j Gd_j$

这说明 $g_{j+1}\in {\rm span}\{g_0,Gg_0,\cdots,G^{j+1} g_0\}$

由归纳假设知
${\rm span}\{g_0,\cdots,g_{j+1}\}\subseteq {\rm span}\{g_0,Gg_0,\cdots,G^{j+1}g_0\}$
由归纳假设有
$G^{j+1}g_0=G(G^jg_0)\in {\rm span}\{Gd_0,Gd_1,\cdots,Gd_j\}\\$
由 $g_{i+1}=g_i+\lambda_i Gd_i$ 得 $Gd_i=\dfrac{g_{i+1}-g_i}{\lambda_i}(i=0,\cdots,j)$ ，则
$G^{j+1}g_0\in{\rm span}\{g_0,\cdots,g_{j+1}\}$
由上式和归纳假设知
${\rm span}\{g_0,Gg_0,\cdots,G^{j+1}g_0\}\subseteq{\rm span}\{g_0,\cdots,g_{j+1}\}\\ \implies {\rm span}\{g_0,Gg_0,\cdots,G^{j+1}g_0\}={\rm span}\{g_0,\cdots,g_{j+1}\}$
由 $d_{j+1}=-g_{j+1}+\beta_j d_j$ 和归纳假设有
${\rm span}\{d_0,\cdots,d_j,d_{j+1}\}={\rm span}\{d_0,\cdots,d_j,g_{j+1}\}\\ ={\rm span}\{g_0,\cdots,g_j,g_{j+1}\}={\rm span}\{g_0,\cdots,G^jg_0,G^{j+1}g_0\}$

拟牛顿法

利用一阶导数信息来逼近二阶Hessian矩阵信息，则称为拟牛顿法。
$\begin{array}{l}f\left( x\right) \approx f\left( x_{k+1}\right) +g_{k+1}^{T} \left( x-x_{k+1}\right) +\dfrac{1}{2}\left( x-x_{k+1}\right) ^{T}H_{k+1} \left( x-x_{k+1}\right) \\ g\left( x\right) \approx g_{k+1} +H_{k+1} \left( x-x_{k+1}\right) =0\\ \end{array}$
令 $x=x_k,s_k=x_{k+1}-x_{k},y_k=g_{k+1}-g_k$ ，可得 $H_{k+1}^{-1}y_k\approx s_k\to G_{k+1}y_k=s_k$ (拟牛顿方程)，也可用下述公式 $B_{k+1}s_k=y_k$ 表示。通过求解 $y_k$ 获得下次迭代的方向。

变尺度法的基本思想：利用尺度矩阵近似Hesse矩阵的逆矩阵，避免了求Hesse矩阵逆矩阵的计算，通过不断校正更新，使得尺度矩阵逼近Hesse矩阵的逆矩阵。

对于凸二次函数，寻优过程中如果都使用精确一维搜索方法获得最佳步长，则下降方向关于H共轭

DFP方法

初始化：给定 $x_0\in R^n,H_0\in R^{n\times n}$ 为对称正定矩阵， $\varepsilon > 0,k=0$
第k步迭代：
1. 若 $\Vert{g_k}\Vert\leqslant \varepsilon$ ，终止
2. 计算 $d_k=-H_k g_k$
3. 计算步长 $\lambda_k$
4. $s_k=\lambda_k d_k,x_{k+1}=x_k+s_k,y_k=g_{k+1}-g_k,H_{k+1}=H_k+\dfrac{s_k s_k^T}{s^T_k y_k}-\dfrac{H_k y_k y_k^T H_k}{y_k^T H_k y_k}$
5. $k + +$

BFGS方法

$d_k=-B_k g_k\\ B_{k+1}=B_k+\dfrac{y_k y_k^T}{y^T_k s_k}-\dfrac{B_k s_k s_k^T B_k}{s_k^T B_k s_k}$

二次终止性

在非线性目标函数中，正定二次函数具有相当好的性质，这类函数简单、光滑、具有唯一极小点．另外，在极小点附近，一般函数可以用正定二次函数很好地近似．因此能否有效地求得正定二次函数的极小点，是检验一算法好坏的标准之一，对于一个算法，如果它对任意正定二次函数，从任意初始点出发，可以经有限步迭代求得极小点，我就说该算法具有二次终止性．在下面的章节中，我们会讨论具体方法的二次终止性．