漫谈：Chebyshev多项式，Krylov子空间，Chebyshev迭代，共轭梯度方法_共轭梯度法系数矩阵可以随迭代而变化吗-CSDN博客

本文链接：https://blog.csdn.net/weixin_43614211/article/details/122268793

漫谈：Chebyshev多项式，Krylov子空间，Chebyshev迭代，共轭梯度方法

Chebyshev 多项式
Chebyshev迭代
共轭梯度（Conjugate Gradient）方法
- 最速下降法的收敛速度
- CG方法的收敛速度
Chebyshev迭代和CG方法比较

Chebyshev迭代和共轭梯度方法的收敛速度（后者或称误差分析）都与Chebyshev多项式有着紧密联系，因此做一些整理，以期把其中的逻辑理清，推导理顺。只覆盖关键要点，不求面面俱到。

Chebyshev 多项式

标准Chebyshev多项式

与权函数 $\rho(y)=\frac{1}{\sqrt{1-y^2}}$ 对应的正交多项式为Chebyshev多项式。标准的Chebyshev多项式分两段定义：
$T_n(y)=\left\{ \begin{aligned} &\mathrm{cos}(n\space\arccos(y)) &\space, y\in [-1,1]\\ &\frac{1}{2}\left[\left(y+\sqrt{y^2-1}\right)^n+\left(y-\sqrt{y^2-1}\right)^n\right] &\space, y \in \mathbf{R} \setminus [-1,1] \end{aligned} \right.$

概述一些基本性质。 $n$ 次的Chebyshev多项式在开区间 $(- 1, 1)$ 内有 $n$ 个零点，在 $[- 1, 1]$ 内有 $n + 1$ 个符号交错的极值点（ $- 1$ 和 $+ 1$ 交替）。Chebyshev多项式不是奇函数就是偶函数，且随 $n$ 交替变化。

对于任意位置区间 $[a, b]$ 的Chebyshev多项式，都可以通过平移和缩放来化为标准区间 $[- 1, 1]$ 上的标准Chebyshev多项式。对于 $x\in[a,b]$ ，做变换 $y=\frac{x-\frac{1}{2}(b+a)}{\frac{1}{2}(b-a)}$ ，即有 $y\in[-1,1]$ ：
$\widetilde{T_n}(x)=T_n\left(y=\frac{x-\frac{1}{2}(b+a)}{\frac{1}{2}(b-a)}\right)$
相应地，权函数也做变换：
$\widetilde{\rho}(x)=\rho\left(y=\frac{x-\frac{1}{2}(b+a)}{\frac{1}{2}(b-a)}\right)= \frac{1}{\sqrt{1-\left( \frac{x-\frac{1}{2}(b+a)}{\frac{1}{2}(b-a)} \right)^2}}$

三项递推关系

记 $\theta=\mathrm{arccos}y$ ，利用和差化积公式有
$\cos((n+1)\theta)+\cos((n-1)\theta)=2\cos(n\theta)\cos(\theta)$
故有
$T_{n+1}(y)=2yT_n(y)-T_{n-1}(y)$

逼近性质

对之前提到的定义在 $x\in[a,b]$ 上的Chebyshev多项式，按照区间外一点 $c\notin[a,b]$ 来做归一化：
$\widehat{T_n}(x)=\frac{\widetilde{T_n}(x)}{\widetilde{T_n}(c)}$
显然有 $\widehat{T_n}(x)\in\Phi_{n,c}=\{f\in\mathbf{P}\space|\space f(c)=1 \}$ 。后者表示所有在 $c$ 这一点值为1的 $n$ 次多项式的集合。Chebyshev多项式具有如下的逼近性质。
$||\widehat{T_n}(x)||_{C[a,b]}={\underset {f\in\Phi_{n,c}}{\operatorname {inf} }} ||f||_{C[a,b]}$
即所有在 $c$ 这一点值为1的多项式里，Chebyshev多项式是取到最小范数的那一个。由有限维空间内范数的等价性，从无穷范数入手证明。

首先说明 $\widehat{T_n}(x)$ 是well-defined的。因为 $T_n(y)$ 的零点都在开区间 $(- 1, 1)$ 内，因此平移和缩放后 $\widetilde{T_n}(x)$ 的零点都在 $[a, b]$ 内， $\widetilde{T_n}(c)\neq0$ 。

反证法。假设 $Y_n\in\Phi_{n,c}$ ，且满足 $||Y_n||_{C[a,b]}<||\widehat{T_n}||_{C[a,b]}$ 。则对于 $z_n(x)=\widehat{T_n}(x)-Y_n(x)$ ，它有一个零点是 $c$ 。

对于标准Chebyshev多项式 $T_n{y}$ ，在 $[- 1, 1]$ 上的（交错）极值点为 $\cos(\frac{k\pi}{n}), k=0,1,...,n$ 。所以 $\widetilde{T_n}(x)$ 在 $[a, b]$ 上的（交错）极值点为 $x_k=\frac{b+a}{2}+\frac{b-a}{2}\cos(\frac{k\pi}{n}), k=0,1,...,n$ 。因为 $||Y_n(x)||_{C[a,b]}<||\widehat{T_n}(x)||_{C[a,b]}$ ，那么自然有
$|Y_n(x_k)|\leq||Y_n(x)||_{C[a,b]}<||\widehat{T_n}(x)||_{C[a,b]}=|\widehat{T_n}(x_k)|\space, k=0,1,...,n$
所以 $\widehat{T_n}(x_k)$ 与 $\widehat{T_n}(x_k)-Y_n(x_k)$ 同号！而 ${x_k\}$ 是 $\widehat{T_n}(x)$ 的一组符号交错点，那么也是 $\widehat{T_n}(x)-Y_n(x)$ 的一组符号交错点。所以在开区间 $x_k,x_{k+1})$ 中必至少有 $z_n(x)$ 的一个零点，则 $(a, b)$ 内至少有 $z_n(x)$ 的 $n$ 个不同零点。

加上前述的 $c\notin[a,b]$ 也是 $z_n(x)$ 的一个零点，故它至少有 $n + 1$ 个零点，这与它是 $n$ 次多项式矛盾。证毕。

再来估计 $||\widehat{T_n}(x)||_{C[a,b]}={\underset {f\in\Phi_{n,c}}{\operatorname {inf} }} ||f||_{C[a,b]}$ 的大小。
$||\widehat{T_n}(x)||_{C[a,b]}=\left|\left|\frac{\widetilde{T_n}(x)}{\widetilde{T_n}(c)}\right|\right|_{C[a,b]}= \frac{||\widetilde{T_n}(x)||_{C[a,b]}}{|\widetilde{T_n}(c)|}= \frac{1}{|\widetilde{T_n}(c)|}$
而
$\widetilde{T_n}(c)= T_n\left(\frac{c-\frac{b+a}{2}}{\frac{b-a}{2}} \right)= T_n\left(\frac{-\frac{(b-c)+(a-c)}{2}}{\frac{(b-c)-(a-c)}{2}} \right)= (-1)^nT_n\left( \frac{(b-c)+(a-c)}{(b-c)-(a-c)} \right)$
所以
$|\widetilde{T_n}(c)|= T_n\left(\left| \frac{(b-c)+(a-c)}{(b-c)-(a-c)} \right|\right)= T_n\left(\frac{\lambda+1}{\lambda-1} \right)$
其中 $\lambda=\max(\frac{|a-c|}{|b-c|},\frac{|b-c|}{|a-c|})>1$ 。所以根据标准Chebyshev多项式在 $[- 1, 1]$ 区间外的表达式，有
$T_n\left(\frac{\lambda+1}{\lambda-1} \right)\geq \frac{1}{2}\left[ \frac{\lambda+1}{\lambda-1}+\sqrt{ \left(\frac{\lambda+1}{\lambda-1}\right)^2-1 } \right]^n= \frac{1}{2}\left(\frac{\sqrt{\lambda}+1}{\sqrt{\lambda}-1}\right)^n$
所以最后得到的估计是
$||\widehat{T_n}(x)||_{C[a,b]}= \frac{1}{|\widetilde{T_n}(c)|}= \frac{1}{T_n\left(\frac{\lambda+1}{\lambda-1} \right)}\leq 2\left(\frac{\sqrt{\lambda}-1}{\sqrt{\lambda}+1}\right)^n$
并且这个估计是较紧凑的。将会在Chebyshev迭代和共轭梯度的收敛速度分析中用到这个结论。

Chebyshev迭代

Chebyshev迭代是线性非定常迭代，其迭代使用的矩阵/系数在每个迭代步都会发生变化。而任意的单步线性定常迭代都可以表述为最简单的Richardson迭代+预处理的组合。因此从Richardson迭代出发，引入Krylov子空间的概念，然后加以适当改造得到Chebyshev迭代。

Richardson迭代和Krylov子空间

Richardson迭代是最简单的迭代格式，它在每一步都加上一个修正量，此修正量就简单地取为当前迭代结果的残差：
$\bm{x}^{(i+1)}=\bm{x}^{(i)}+\bm{r}^{(i)}=\bm{x}^{(i)}+\bm{b}-\bm{A}\bm{x}^{(i)}=(\bm{I}-\bm{A})\bm{x}^{(i)}+\bm{b}$
$\bm{r}^{(i+1)}=\bm{b}-\bm{A}\bm{x}^{(i+1)}=\bm{b}-\bm{A}\bm{x}^{(i)}-\bm{A}\bm{r}^{(i)} =(\bm{I}-\bm{A})\bm{r}^{(i)}=...=(\bm{I}-\bm{A})^{i+1}\bm{r}^{(0)}$
由残差与误差的关系有 $\bm{e}^{(i)}=\bm{A}^{-1}\bm{r}^{(i)}$ ，可知相应有 $\bm{e}^{(i+1)}=(\bm{I}-\bm{A})\bm{e}^{(i)}$ 。于是在第 $m$ 步得到的迭代结果为
$\bm{x}^{(m)}=\bm{x}^{(0)}+\sum_{i=0}^{m-1}\bm{r}^{(i)}=\bm{x}^{(0)}+\sum_{i=0}^{m-1}(\bm{I}-\bm{A})^{i}\bm{r}^{(0)}\in\bm{x}^{(0)}+\bm{K_m}(\bm{r}^{(0)})$
其中 $\bm{K_m}(\bm{r}^{(0)})$ 是由 $\bm{r}^{(0)}$ 生成的Krylov子空间，其中的元素是用 $\bm{A}$ 反复作用于 $\bm{r}^{(0)}$ 得到的 $\bm{r}^{(0)},\bm{Ar}^{(0)},\bm{A^2r}^{(0)},...$ 等的线性组合。

任何的单步定常迭代格式，比如给定 $\bm{A}=\bm{M}-\bm{N}$ ，其中 $\bm{M}$ 为预处理矩阵，则迭代可以写成
$\bm{x}^{(i+1)}=\bm{M}^{-1}\bm{N}\bm{x}^{(i)}+\bm{M}^{-1}\bm{b}=\bm{M}^{-1}(\bm{M}-\bm{A})\bm{x}^{(i)}+\bm{M}^{-1}\bm{b}$
而对 $\bm{Ax}=\bm{b}$ 做预处理后得到的 $\bm{M^{-1}Ax}=\bm{M^{-1}b}$ ，再进行Richardson迭代，可以得到
$\bm{x}^{(i+1)}=\bm{x}^{(i)}+\bm{r}^{(i)}=\bm{x}^{(i)}+\bm{M^{-1}b}-\bm{M^{-1}}\bm{A}\bm{x}^{(i)}$
可见是等价的，所以任何的单步定常迭代形式都可以写成预处理后的Richardson迭代（即当前迭代值+修正量）的形式。

单步迭代格式

原始的Richardson迭代是最简单地取了 $\bm{M}=\bm{I}$ （最好计算，但最不好近似）来做预处理。现在采用非定常，即考虑每步迭代不那么naive，而是选用一个与当前步 $i$ 有关地矩阵 $\bm{M_i}$ 做预处理，假设 $\bm{M_i}=\tau_i\bm{M}$ 由同一个矩阵 $\bm{M}$ 生成。同样类似Richardson迭代的好计算的想法，取 $\bm{M}=\bm{I}$ ，故有 $\bm{M_i}=\tau_i\bm{I}$ 。所以残量的递推关系成为
$\bm{r}^{(i+1)}=(\bm{I}-\tau_i\bm{A})\bm{r}^{(i)}=(\bm{I}-\tau_i\bm{A})(\bm{I}-\tau_{i-1}\bm{A})...(\bm{I}-\tau_0\bm{A})\bm{r}^{(0)}$
对于误差 $\bm{e}^{(i)}$ 也同样有此关系，所以有
$\frac{||\bm{e}^{(i)}||}{||\bm{e}^{(0)}||}\leq|| (\bm{I}-\tau_{i-1}\bm{A})...(\bm{I}-\tau_0\bm{A}) ||$
我们希望构造出来的结果（即 $\tau_0,\tau_1,...$ 等的取值）能使残量（误差）收缩得最小，即求解如下的优化问题：
${\underset {\tau_0,...,\tau_{i-1}} {\operatorname {inf} }} || (\bm{I}-\tau_{i-1}\bm{A})...(\bm{I}-\tau_0\bm{A}) ||$
假设 $\bm{A}$ 是对称阵（这些强加的适用条件后面汇总来看），那么存在正交阵 $\bm{P}$ （如果 $\bm{A}$ 是Hermite矩阵，则 $\bm{P}$ 为酉矩阵）使得 $\bm{A}$ 能相似对角化，且取2-范数时有 $||\bm{P}||_2=1$ 。
$\bm{A}=\bm{P} \mathrm{diag}(\lambda_1,\lambda_2,...,\lambda_n)\bm{P}^T=\bm{P}\bm{\Lambda} \bm{P}^T$
那么有
$\begin{aligned} || (\bm{I}-\tau_{i-1}\bm{A})...(\bm{I}-\tau_0\bm{A}) ||_2=& ||\bm{P}(\bm{I}-\tau_{i-1}\bm{\Lambda})...(\bm{I}-\tau_0\bm{\Lambda})\bm{P}^T||_2\\ =&||(\bm{I}-\tau_{i-1}\bm{\Lambda})...(\bm{I}-\tau_0\bm{\Lambda})||_2\\ =&{\underset {\lambda\in\sigma(\bm{A})} {\operatorname {max} }} | (1-\tau_{i-1}\lambda)...(1-\tau_0\lambda)| \\ \end{aligned}$
而 $\bm{A}$ 的谱是可以估计的，假设已算出 $\sigma(\bm{A})\in[\underline{\lambda},\bar{\lambda}]$ 。那么上式可以写成：
$\begin{aligned} {\underset {\lambda\in\sigma(\bm{A})} {\operatorname {max} }} | (1-\tau_{i-1}\lambda)...(1-\tau_0\lambda)|&\leq& ||(1-\tau_{i-1}\lambda)...(1-\tau_0\lambda)||_{\infty,[\underline{\lambda},\bar{\lambda}]}\\ &=&||f(\lambda)||_{\infty,[\underline{\lambda},\bar{\lambda}]}\\ \end{aligned}$
左边的原式是一个绝对值，现在右边看成是一个关于 $\lambda$ 的多项式函数 $f(\lambda)=(1-\tau_{i-1}\lambda)...(1-\tau_0\lambda)$ 的无穷范数。该多项式函数有 $i$ 个实单根： $\frac{1}{\tau_0},...,\frac{1}{\tau_{i-1}}$ 。

而由之前的结论，定义在 $[\underline{\lambda},\bar{\lambda}]$ 上的Chebyshev多项式 $\widehat{T_i}(\lambda)$ 在开区间 $(\underline{\lambda},\bar{\lambda})$ 内有 $i$ 个实单根，且 $\widehat{T_i}(\lambda)={\underset {P_i\in\mathbf{P_i},P_i(0)=1}{\operatorname {inf} }} ||P_i||_{\infty,[\underline{\lambda},\bar{\lambda}]}$ .

注意当 $\bm{A}$ 为对称正定阵时， $0\notin[\underline{\lambda},\bar{\lambda}]$ ，所以 ${\underset {P_i\in\mathbf{P_i},P_i(0)=1}{\operatorname {inf} }} ||P_i||_{\infty,[\underline{\lambda},\bar{\lambda}]}$ 的下界恰好能被原问题的 $f(\lambda)$ 取到。此时
$P_i^*(\lambda)=\widehat{T_i}(\lambda)=\frac{\widetilde{T_i}(\lambda)}{\widetilde{T_i}(0)} =\frac{T_i\left( \frac{\lambda-\frac{1}{2}(\bar{\lambda}+\underline{\lambda})} {\frac{1}{2} (\bar{\lambda}-\underline{\lambda})} \right)}{T_i\left( \frac{0-\frac{1}{2}(\bar{\lambda}+\underline{\lambda})} {\frac{1}{2} (\bar{\lambda}-\underline{\lambda})} \right)}= (1-\tau_{i-1}^{(i)}\lambda)...(1-\tau_{0}^{(i)}\lambda)$
其中 $\tau_j^{(i)}$ 的上标表示与迭代次数 $i$ 有关。所以原问题的 $i$ 个实单根就是定义在 $[\underline{\lambda},\bar{\lambda}]$ 上的Chebyshev多项式的根。单步的迭代格式写成
$\begin{aligned} \bm{x}^{(1)}&=&\bm{x}^{(0)}+\tau_0^{(i)}\bm{r}^{(0)}\\ &...&\\ \bm{x}^{(j)}&=&\bm{x}^{(j-1)}+\tau_{j-1}^{(i)}\bm{r}^{(j-1)}\\ &...&\\ \bm{x}^{(i)}&=&\bm{x}^{(i-1)}+\tau_{i-1}^{(i)}\bm{r}^{(i-1)}\\ \end{aligned}$

收敛速度

Chebyshev迭代的收敛速度优势，应当通过进行一次 $i$ 步的Chebyshev迭代，和进行 $i$ 次的单步定常迭代来比较。

由Chebyshev的逼近性质，可以得到Chebyshev的迭代收敛速度为
$\begin{aligned} \frac{||\bm{e}^{(i)}||}{||\bm{e}^{(0)||}}&\leq&||(1-\tau_{i-1}\lambda)...(1-\tau_0\lambda)||_{\infty,[\underline{\lambda},\bar{\lambda}]}\\ &=&\frac{1}{|\widetilde{T_i}(0)|}=\frac{1}{\left|T_i\left(\frac{0-\frac{\bar{\lambda}+\underline{\lambda}}{2}}{\frac{\bar{\lambda}-\underline{\lambda}}{2}}\right)\right|}\\ &=&\frac{1}{\left| T_i\left( \frac{\frac{\bar{\lambda}}{\underline{\lambda}}+1}{\frac{\bar{\lambda}}{\underline{\lambda}}-1} \right) \right|}=\frac{1}{\left| T_i\left( \frac{\alpha+1}{\alpha-1} \right) \right|}\\ &&\leq\approx2\left( \frac{\sqrt{\alpha}-1}{\sqrt{\alpha}+1} \right)^i \end{aligned}$
其中 $\alpha=\frac{\bar{\lambda}}{\underline{\lambda}}>1$ 。

而如果做 $i$ 次单步的定常迭代，每次单步的收敛速度为
$P_1^*(\lambda)=\frac{1}{\left| T_1\left( \frac{\alpha+1}{\alpha-1} \right) \right|} = \frac{1}{\left| \frac{\alpha+1}{\alpha-1} \right|} = \frac{\alpha-1}{\alpha+1}$
连续做 $i$ 次以后的收敛速度为 $\frac{||\bm{e}^{(i)}||}{||\bm{e}^{(0)||}}\leq\left( \frac{\alpha-1}{\alpha+1}\right)^i$ 。这显然要比Chebyshev迭代的收敛速度慢。

两步迭代格式

单步的Chebyshev迭代格式的缺点是 $\tau_j^{(i)}$ 依赖于迭代次数 $i$ 的取值。自然地想，能不能不依赖于后者的确定？这就可以用上Chebyshev多项式的三项递推关系来解决！

对标准的Chebyshev多项式， $T_{n+1}(y)=2yT_n(y)-T_{n-1}(y),...,T_1(y)=y,T_0(y)=1$ 。但需要的是定义在 $[\underline{\lambda}, \bar{\lambda}]$ 上的Chebyshev多项式，做变换：
$\widetilde{T_i}(x)=T_i\left(y=\frac{x-\frac{1}{2}(\bar{\lambda}+\underline{\lambda})}{\frac{1}{2}(\bar{\lambda}-\underline{\lambda})}\right)=T_i(y=ax-y_0)$
其中记 $y_0=\frac{\bar{\lambda}+\underline{\lambda}}{\bar{\lambda}-\underline{\lambda}}, a=\frac{2}{\bar{\lambda}-\underline{\lambda}}$ 。按照 $x = 0$ 这一点的 $\widetilde{T_i}$ 值做归一化： $\widehat{T_i}(x)=\frac{\widetilde{T_i}(x)}{\widetilde{T_i}(0)}=\frac{T_i(ax-y_0)}{T_i(-y_0)}=\frac{T_i(y_0-ax)}{T_i(y_0)}$ ，因此三项递推关系为
$\widehat{T_0}(x)=\frac{T_0(y_0-ax)}{T_0(y_0)}=1\\ \widehat{T_1}(x)=\frac{T_1(y_0-ax)}{T_1(y_0)}=\frac{y_0-ax}{y_0}=\widehat{T_0}(x)-\frac{a}{y_0}x\widehat{T_0}(x)\\ ... ...\\ \begin{aligned} \widehat{T_{i+1}}(x)&=\frac{T_{i+1}(y_0-ax)}{T_{i+1}(y_0)}=\frac{2(y_0-ax)T_i(y_0-ax)-T_{i-1}(y_0-ax)}{T_{i+1}(y_0)}\\ &=\frac{2(y_0-ax)T_i(y_0)}{T_{i+1}(y_0)} \frac{T_i(y_0-ax)}{T_i(y_0)}-\frac{T_{i-1}(y_0)}{T_{i+1}(y_0)} \frac{T_{i-1}(y_0-ax)}{T_{i-1}(y_0)}\\ &=\frac{2(y_0-ax)T_i(y_0)}{T_{i+1}(y_0)} \widehat{T_i}(x) -\frac{T_{i-1}(y_0)}{T_{i+1}(y_0)} \widehat{T_{i-1}}(x)\\ &=\frac{2y_0T_i(y_0)}{T_{i+1}(y_0)} \widehat{T_i}(x) -\frac{T_{i-1}(y_0)}{T_{i+1}(y_0)} \widehat{T_{i-1}}(x)-2a\frac{T_i(y_0)}{T_{i+1}(y_0)}x\widehat{T_i}(x)\\ &=\left( 1+\frac{T_{i-1}(y_0)}{T_{i+1}(y_0)} \right) \widehat{T_i}(x) - \frac{T_{i-1}(y_0)}{T_{i+1}(y_0)}\widehat{T_{i-1}}(x) -2a\frac{T_i(y_0)}{T_{i+1}(y_0)}x\widehat{T_i}(x)\\ &=\alpha_i\widehat{T_i}(x) + (1-\alpha_i)\widehat{T_{i-1}}(x) - \beta_ix\widehat{T_i}(x) \end{aligned}$
其中系数 $\alpha_i$ 和 $\beta_i$ 的递归计算方式为
$\beta_0=2a\frac{T_0(y_0)}{T_1(y_0)}=\frac{2a}{y_0}=\frac{4}{\bar{\lambda}+\underline{\lambda}}\\ \begin{aligned} \frac{1}{\beta_i}&=\frac{1}{2a}\frac{T_{i+1}(y_0)}{T_i(y_0)}=\frac{\bar{\lambda}-\underline{\lambda}}{4} \frac{2y_0T_i(y_0)-T_{i-1}(y_0)}{T_i(y_0)}=\frac{\bar{\lambda}-\underline{\lambda}}{2} y_0 - \frac{\bar{\lambda}-\underline{\lambda}}{4} \frac{T_{i-1}(y_0)}{T_i(y_0)}\\ &=\frac{\bar{\lambda}+\underline{\lambda}}{2} - \frac{\bar{\lambda}-\underline{\lambda}}{4} \frac{1}{2a} \beta_{i-1} = \frac{\bar{\lambda}+\underline{\lambda}}{2} - \left(\frac{\bar{\lambda} - \underline{\lambda}}{4} \right)^2 \beta_{i-1} \end{aligned} \\ \alpha_i=2y_0 \frac{T_i(y_0)}{T_{i+1}(y_0)}=\frac{2y_0}{2a}\beta_i=\frac{\bar{\lambda}+\underline{\lambda}}{2} \beta_i$

由此对应的两步Chebyshev迭代格式（具体的导出步骤，笔者也不确定）为：
$\bm{x}^{(i+1)}=\alpha_i\bm{x}^{(i)} + (1-\alpha_i)\bm{x}^{(i-1)} + \beta_i\bm{r}^{(i)}$

共轭梯度（Conjugate Gradient）方法

将原来的代数方程组求解问题 $\bm{Ax}=\bm{b}$ 转化为全空间无约束的优化问题，目标函数为
$\varphi=\frac{1}{2}(\bm{Ax},\bm{x})-(\bm{b}, \bm{x})$
它的驻点 $\bm{x^*}$ 满足 $\delta\varphi(\bm{x^*})=\bm{Ax^*}-\bm{b}=0$ ，即为原方程组的解。目标函数有下界
$\varphi(\bm{x^*})=\varphi(\bm{A}^{-1}\bm{b})=-\frac{1}{2}(\bm{b},\bm{A^{-1}b})=-\frac{1}{2}(\bm{Ax^*},\bm{x^*})\\ \varphi(\bm{x})-\varphi(\bm{x^*})=\frac{1}{2}\left(\bm{A}(\bm{x}-\bm{x^*}), \bm{x}-\bm{x^*}\right)=\frac{1}{2}||\bm{x}-\bm{x^*}||_{\bm{A}} \geq0$
其中由 $\bm{A}$ 内积诱导的 $\bm{A}$ 范数 $||\bm{x}||_{\bm{A}}^2=(\bm{Ax},\bm{x})=(\bm{x},\bm{x})_{\bm{A}}$

CG和最速下降都属于子空间搜索方法。如果给定搜索方向 $\bm{p}^{(k)}$ ，对此做一维极小搜索，则可以得到该方向的步长 $\alpha_k$ ：
$\alpha_k={\underset {\alpha} {\operatorname {arg\,min} }} \space \varphi({\bm{x}^{(k)}}+\alpha\bm{p}^{(k)})$

同之前的迭代法，误差和残量之间关系为 $\bm{e}^{(k)}=\bm{x}^{(k)}-\bm{x^*}=-\bm{A}^{-1}\bm{r}^{(k)}$ 。

最速下降法的收敛速度

简单地取 $\bm{p}^{(k)}=\bm{r}^{(k)}$ ，即当前的残量方向。
$\begin{aligned} ||\bm{e}^{(k+1)}||_{\bm{A}}^2&=||\bm{e}^{(k)}+\alpha_k\bm{r}^{(k)}||_{\bm{A}}^2=\left(\bm{Ae^{(k)}}+\alpha_k\bm{A}\bm{r}^{(k)}, \bm{e}^{(k)}+\alpha_k\bm{r}^{(k)}\right)\\ &=||\bm{e}^{(k)}||_{\bm{A}}^2+||\alpha_k\bm{r}^{(k)}||_{\bm{A}}^2 - 2(\bm{r}^{(k)}, \bm{r}^{(k)})\\ &=||\bm{e}^{(k)}||_{\bm{A}}^2-\alpha_k(\bm{r}^{(k)}, \bm{r}^{(k)})=||\bm{e}^{(k)}||_{\bm{A}}^2-\frac{(\bm{r}^{(k)},\bm{r}^{(k)})(\bm{r}^{(k)},\bm{r}^{(k)})}{{(\bm{r}^{(k)},\bm{r}^{(k)})}_{\bm{A}}}\\ &=||\bm{e}^{(k)}||_{\bm{A}}^2\left( 1 - \frac{1}{ \frac{(\bm{r}^{(k)},\bm{r}^{(k)})_{\bm{A}}}{(\bm{r}^{(k)},\bm{r}^{(k)})} \frac{(\bm{r}^{(k)},\bm{r}^{(k)})_{\bm{A}^{-1}}}{(\bm{r}^{(k)},\bm{r}^{(k)})} } \right)\\ &\leq ||\bm{e}^{(k)}||_{\bm{A}}^2\left( 1 - \frac{1}{ \frac{(\lambda_1+\lambda_n)^2}{4\lambda_1\lambda_n} } \right)=||\bm{e}^{(k)}||_{\bm{A}}^2 \frac{(\lambda_1-\lambda_n)^2}{(\lambda_1+\lambda_n)^2} \end{aligned}$

其中 $\lambda_1$ 为最大的特征值， $\lambda_n$ 为最小的特征值。所以收敛速度为
$\frac{||\bm{e}^{(k)}||_{\bm{A}}}{||\bm{e}^{(0)}||_{\bm{A}}} \leq \left(\frac{\lambda_1-\lambda_n}{\lambda_1+\lambda_n}\right)^k$

CG方法的收敛速度

既然最速下降法是naive地选取局部残量方向作为搜索方向，自然的想法是能否同时优化2个目标（方向 $\bm{p}^{(k)}$ 和步长 $\alpha_k$ ）从而得到一些特殊的性质/好处。CG法希望在确定 $\bm{p}^{(k)}$ 方向之后所进行的一维极小搜索得到的新解 $\bm{x}^{(k+1)}=\bm{x}^{(k)}+\alpha_k\bm{p}^{(k)}$ ，同时也是加入向量 $\bm{p}^{(k)}$ 后张成的Krylov子空间内的最小值。为达到这个好的性质所做的一些特别的推导在此不提（实质上每次搜索方向就是 $\bm{r}^{(0)}$ 生成的Krylov子空间的一个方向），后续有时间再补上。我们只要知道第 $k$ 步得到的解 $\bm{x}^{(k)}$ 就是Krylov子空间 $\bm{K_k}(\bm{r}^{(0)})$ 内的最小值，并根据此得出它的收敛速度。

取 $\bm{x}^{(0)}=\bm{0}$ ，则 $\bm{r}^{(0)}=\bm{b}$ ，令 $\bm{y}=\bm{A}^{-1}\bm{r}^{(0)}$ ，那么误差之比

$\begin{aligned} \frac{||\bm{e}^{(k)}||_{\bm{A}}}{||\bm{e}^{(0)}||_{\bm{A}}}&= {\underset {P_{k-1}\in\mathbf{P_{k-1}}} {\operatorname {min} }} \frac{||P_{k-1}(\bm{A})\bm{r}^{(0)}-\bm{A}^{-1}\bm{r}^{(0)}||_{\bm{A}}}{||\bm{A}^{-1}\bm{r}^{(0)}||_{\bm{A}}}\\ &\leq {\underset {P_{k-1}\in\mathbf{P_{k-1}}} {\operatorname {min} }} {\underset {\bm{y}\neq\bm{0}} {\operatorname {sup} }} \frac{||P_{k-1}(\bm{A})\bm{Ay}-\bm{y}||_{\bm{A}}}{||\bm{y}||_{\bm{A}}}\\ &={\underset {P_{k}\in\mathbf{P_{k}}, P_k(0)=1} {\operatorname {min} }} {\underset {\bm{y}\neq\bm{0}} {\operatorname {sup} }} \frac{||P_{k}(\bm{A})\bm{y}||_{\bm{A}}}{||\bm{y}||_{\bm{A}}}\\ \end{aligned}$

设 $(\lambda_i, \bm{y}_i)$ 为 $P_k(\bm{A})$ 的特征值-向量对，则 $\bm{y}$ 在这组基底下表示为 $\bm{y}=\sum_ia_i\bm{y}_i$ ，上式化为

$\begin{aligned} \frac{||\bm{e}^{(k)}||_{\bm{A}}}{||\bm{e}^{(0)}||_{\bm{A}}} &\leq {\underset {P_{k}\in\mathbf{P_{k}}, P_k(0)=1} {\operatorname {min} }} {\underset {\bm{y}\neq\bm{0}} {\operatorname {sup} }} \frac{||\sum_iP_{k}(\lambda_i)a_i\bm{y}_i||_{\bm{A}}} { ||\sum_ia_i\bm{y}_i||_{\bm{A}} } \\ &= {\underset {P_{k}\in\mathbf{P_{k}}, P_k(0)=1} {\operatorname {min} }} {\underset {\lambda\in\sigma(\bm{A})} {\operatorname {max} }} | P_k(\lambda)| \\ &\leq {\underset {P_{k}\in\mathbf{P_{k}}, P_k(0)=1} {\operatorname {min} }} || P_k(\lambda) ||_{L\,\infty\,\left(\frac{\lambda_n}{\lambda_1},1\right)} \\ \end{aligned}$

该值即为定义在 $[\frac{\lambda_n}{\lambda_1},1]$ 上且满足 $0$ 点取值为 $1$ 的所有 $k$ 次多项式中，无穷范数最小的那个。这就是Chebyshev多项式，记 $\alpha=\frac{\lambda_n}{\lambda_1}$ ：
$\widehat{T_k}(x)=\frac{\widetilde{T_k}(x)}{\widetilde{T_k}(0)}=\frac{T_k\left(\frac{x-\frac{1}{2}(1+\alpha)}{\frac{1}{2}(1-\alpha)} \right)}{T_k\left(-\frac{1+\alpha}{1-\alpha} \right)}=P_k^*(x)$

利用其逼近性质，可知收敛速度为
$\frac{||\bm{e}^{(k)}||_{\bm{A}}}{||\bm{e}^{(0)}||_{\bm{A}}} \leq ||P_k^*(x)||_{L\,\infty\,\left(\alpha,1\right)}=\frac{1}{\left| T_k\left( \frac{1+\alpha}{1-\alpha} \right) \right|}=2\left( \frac{1-\sqrt{\alpha}}{1+\sqrt{\alpha}} \right)^k$