共轭梯度法推导

最新推荐文章于 2023-07-20 18:54:12 发布

Drama65535

最新推荐文章于 2023-07-20 18:54:12 发布

阅读量2.3k

点赞数 7

分类专栏：三维重建

本文链接：https://blog.csdn.net/youtuodai1436/article/details/105075989

版权

三维重建专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1.共轭向量

在介绍共轭梯度法前，首先介绍一下共轭向量的概念。对于向量 $\boldsymbol{e_1}$ ， $\boldsymbol{e_2}$ ，如果两个向量正交，则有 $\boldsymbol{e_1}^\mathrm{T}\boldsymbol{e_2}=0$ ，那么对于共轭向量来说，假设有一正定对称矩阵 $\boldsymbol{A}$ ，如果 $\boldsymbol{e_1}^\mathrm{T}\boldsymbol{A}\boldsymbol{e_2}=0$ ，则称 $\boldsymbol{e_1}$ ， $\boldsymbol{e_2}$ 关于矩阵 $\boldsymbol{A}$ 相互共轭。即 $\boldsymbol{e_2}$ 经过线性变换 $\boldsymbol{A}$ 后与 $\boldsymbol{e_1}$ 正交，通常所指的正交可认为是 $\boldsymbol{A}=\boldsymbol{I}$ 的特殊情况。

那么对于非零向量组 $\boldsymbol{d_1},\boldsymbol{d_2}...\boldsymbol{d_n}$ ，若有 $\boldsymbol{d_i}^\mathrm{T}\boldsymbol{A}\boldsymbol{d_j}=0(i\neq j)$ ，则称该向量组关于矩阵 $\boldsymbol{A_{n×n}}$ 相互共轭，且 $\boldsymbol{d_1},\boldsymbol{d_2}...\boldsymbol{d_n}$ 线性无关，证明如下：
$要证明线性无关，即对于\\a_1\boldsymbol{d_1}+a_2\boldsymbol{d_2}+...+a_n\boldsymbol{d_n}=0，当且仅当a_1=a_2=...=a_n=0时成立,\\ 由上式有\boldsymbol{d_i}^\mathrm{T}\boldsymbol{A}(a_1\boldsymbol{d_1}+a_2\boldsymbol{d_2}+...+a_n\boldsymbol{d_n})=a_i\boldsymbol{d_i}^\mathrm{T}\boldsymbol{A}\boldsymbol{d_i}=0,\\ 由于\boldsymbol{A}对称正定，故\boldsymbol{d_i}^\mathrm{T}\boldsymbol{A}\boldsymbol{d_i}>0,因此a_i=0.$

由于该向量组线性无关，故该向量组可以构成 $n$ 维空间的一组基。空间中任一向量 $\boldsymbol{x}=\sum_{i=1}^n {a_i\boldsymbol{d_i}}$ ，可以证明 $a_i=\displaystyle\frac{\boldsymbol{d_i}^\mathrm{T}A\boldsymbol{x}}{\boldsymbol{d_i}^\mathrm{T}A\boldsymbol{d_i}}$ ，证明如下：
$\boldsymbol{d_k}^\mathrm{T}\boldsymbol{A}\boldsymbol{x}=\boldsymbol{d_k}^\mathrm{T}\boldsymbol{A}\sum_{i=1}^n {a_i\boldsymbol{d_i}}=a_k\boldsymbol{d_k}^\mathrm{T}\boldsymbol{A}\boldsymbol{d_k}\\ a_k=\displaystyle\frac{\boldsymbol{d_k}^\mathrm{T}A\boldsymbol{x}}{\boldsymbol{d_k}^\mathrm{T}A\boldsymbol{d_k}} \\\boldsymbol{x}=\sum_{i=1}^n {\displaystyle\frac{\boldsymbol{d_i}^\mathrm{T}A\boldsymbol{x}}{\boldsymbol{d_i}^\mathrm{T}A\boldsymbol{d_i}}\boldsymbol{d_i}}\tag{1}$
为了对共轭向量的作用有一个认识，这里举一个例子。例如对于线性方程组 $\boldsymbol{x}=\boldsymbol{b}$ ，其中 $A$ 对称正定，如果已知 $A$ 的一个共轭向量组 $\boldsymbol{d_1},\boldsymbol{d_2}...\boldsymbol{d_n}$ ，那么：
$\boldsymbol{x}=\sum_{i=1}^n {\displaystyle\frac{\boldsymbol{d_i}^\mathrm{T}A\boldsymbol{x}}{\boldsymbol{d_i}^\mathrm{T}A\boldsymbol{d_i}}\boldsymbol{d_i}}=\sum_{i=1}^n {\displaystyle\frac{\boldsymbol{d_i}^\mathrm{T}\boldsymbol{b}}{\boldsymbol{d_i}^\mathrm{T}A\boldsymbol{d_i}}\boldsymbol{d_i}}\tag{2}$
这样，就不需要对系数矩阵 $A$ 求逆就可得结果。

2.共轭梯度法

对于更一般的线性方程组 $\boldsymbol{A}\boldsymbol{x}=\boldsymbol{c}$ ，其中 $\boldsymbol{A}$ 可逆，要求 $\boldsymbol{x}$ ，可以将其转化为一个最优化问题： $\min||\boldsymbol{A}\boldsymbol{x}-\boldsymbol{c}||^2$ ，记 $f(\boldsymbol{x})=||\boldsymbol{A}\boldsymbol{x}-\boldsymbol{c}||^2=(\boldsymbol{A}\boldsymbol{x}-\boldsymbol{c})^\mathrm{T}(\boldsymbol{A}\boldsymbol{x}-\boldsymbol{c})=\boldsymbol{x}^\mathrm{T}\boldsymbol{A}^\mathrm{T}\boldsymbol{A}\boldsymbol{x}-2\boldsymbol{c}^\mathrm{T}\boldsymbol{A}\boldsymbol{x}+\boldsymbol{c}^\mathrm{T}\boldsymbol{c}$ ，令 $\boldsymbol{Q}=\boldsymbol{A}^\mathrm{T}\boldsymbol{A}$ ， $\boldsymbol{b}^\mathrm{T}=\boldsymbol{c}^\mathrm{T}\boldsymbol{A}$ ，则问题等效于求
$\min\displaystyle\frac{1}{2}\boldsymbol{x}^\mathrm{T}\boldsymbol{Q}\boldsymbol{x}-\boldsymbol{b}^\mathrm{T}\boldsymbol{x}\tag{3}$
其中 $\boldsymbol{Q}$ 对称正定， $f'(\boldsymbol{x})=\boldsymbol{Q}\boldsymbol{x}-\boldsymbol{b}$ ，事实上直接令 $f'(\boldsymbol{x})=0$ 即可得真实解 $\boldsymbol{x^*}=\boldsymbol{Q^{-1}\boldsymbol{b}}$ 。那么如果使用迭代的方法如何求解呢？给定初始值 $\boldsymbol{x_0}$ ，下面定义两个变量：
$\boldsymbol{e_i}=\boldsymbol{x_i}-\boldsymbol{x^*},称作误差向量\\ \boldsymbol{r_i}=\boldsymbol{b}-\boldsymbol{Q}\boldsymbol{x_i},称作残差向量\tag{4}$
由以上定义，易得下面两个推论：
$\boldsymbol{r_i}=-\boldsymbol{Q}\boldsymbol{e_i}\\ \boldsymbol{r_i}=-f'(\boldsymbol{x})\tag{5}$
假设我们有一个正交向量组 $\boldsymbol{d_0},\boldsymbol{d_1}...\boldsymbol{d_{n-1}}$ ，这些向量构成了 $n$ 维空间的一组基，那么初始误差 $\boldsymbol{e_0}$ 可以写作（系数前添加符号是为了使 $\boldsymbol{d_i}$ 与搜索方向一致）：
$\boldsymbol{e_0}=\boldsymbol{x_0}-\boldsymbol{x^*}=-\alpha_0\boldsymbol{d_0}-\alpha_1\boldsymbol{d_1}-...-\alpha_{n-1}\boldsymbol{d_{n-1}}\tag{6}\\ \boldsymbol{e_1}=\boldsymbol{x_1}-\boldsymbol{x^*}=\boldsymbol{x_0}+\alpha_0\boldsymbol{d_0}-\boldsymbol{x^*}=-\alpha_1\boldsymbol{d_1}-...-\alpha_{n-1}\boldsymbol{d_{n-1}}\\ ...\\ \boldsymbol{e_{n}}=0$
共轭梯度法的思想就是在每一步的迭代中，消除某一方向上的误差，这样通过 $n$ 步迭代即可求得结果。下面求每一项系数，由上式有：
$\boldsymbol{e_{i+1}}=\boldsymbol{e_{i}}+\alpha_{i}\boldsymbol{d_{i}}\\ \boldsymbol{d_{i}}^\mathrm{T}\boldsymbol{e_{i+1}}=\boldsymbol{d_{i}}^\mathrm{T}(\sum_{j=i+1}^{n-1} (-\alpha_{j})\boldsymbol{d_{j}})=0\\ \boldsymbol{d_{i}}^\mathrm{T}\boldsymbol{e_{i+1}}=\boldsymbol{d_{i}}^\mathrm{T}\boldsymbol{e_{i}}+\alpha_{i}\boldsymbol{d_{i}}^\mathrm{T}\boldsymbol{d_{i}}=0\\ \alpha_{i}=-\displaystyle\frac{\boldsymbol{d_{i}}^\mathrm{T}\boldsymbol{e_{i}}}{\boldsymbol{d_{i}}^\mathrm{T}\boldsymbol{d_{i}}}\tag{7}$
以此步长进行迭代，即可保证第 $i$ 次迭代后的误差向量 $\boldsymbol{e_{i+1}}$ 与第 $i$ 次迭代时的搜索方向向量 $\boldsymbol{d_{i}}$ 是正交的，这样也避免了后续迭代过程中再次往 $\boldsymbol{d_{i}}$ 方向搜索。由公式 $(4)$ 的定义知，迭代过程中 $\boldsymbol{e_{i}}$ 是无法直接计算的，因此我们不能通过这个公式直接得到 $\alpha_{i}$ 的取值。但是如果引入共轭向量的概念，即向量组 $\boldsymbol{d_0},\boldsymbol{d_1}...\boldsymbol{d_{n-1}}$ 关于 $\boldsymbol{Q}$ 是共轭的，那么有：
$\boldsymbol{d_i}^\mathrm{T}\boldsymbol{Q}\boldsymbol{d_j}=0(i\neq j) \\\boldsymbol{d_{i}}^\mathrm{T}\boldsymbol{Q}\boldsymbol{e_{i+1}}=\boldsymbol{d_{i}}^\mathrm{T}\boldsymbol{Q}(\sum_{j=i+1}^{n-1} (-\alpha_{j})\boldsymbol{d_{j}})=0\\ \boldsymbol{d_{i}}^\mathrm{T}\boldsymbol{Q}\boldsymbol{e_{i+1}}=\boldsymbol{d_{i}}^\mathrm{T}\boldsymbol{Q}\boldsymbol{e_{i}}+\alpha_{i}\boldsymbol{d_{i}}^\mathrm{T}\boldsymbol{Q}\boldsymbol{d_{i}}=0\\ \alpha_{i}=-\displaystyle\frac{\boldsymbol{d_{i}}^\mathrm{T}\boldsymbol{Q}\boldsymbol{e_{i}}}{\boldsymbol{d_{i}}^\mathrm{T}\boldsymbol{Q}\boldsymbol{d_{i}}}=\displaystyle\frac{\boldsymbol{d_{i}}^\mathrm{T}\boldsymbol{r_{i}}}{\boldsymbol{d_{i}}^\mathrm{T}\boldsymbol{Q}\boldsymbol{d_{i}}}\tag{7}$
上式最后一步用到了公式 $(5)$ ，由公式 $(4)$ 的定义知，迭代过程中 $\boldsymbol{r_{i}}$ 是可以求得的，这样就求得了每一方向上的步长。

接下来，问题就变为如何在迭代过程中构造关于 $\boldsymbol{Q}$ 的共轭向量组。存在一种简单方法，我们称之为施密特正交化。

假设我们有一组 $n$ 个线性无关的向量 $\boldsymbol{u_0},\boldsymbol{u_1}...\boldsymbol{u_{n-1}}$ ，通过施密特正交化来构建一组共轭向量 $\boldsymbol{d_0},\boldsymbol{d_1}...\boldsymbol{d_{n-1}}$ ，首先令 $\boldsymbol{d_0}=\boldsymbol{u_0}$ ，那么对于 $\boldsymbol{d_1}$ 我们通过将 $\boldsymbol{u_1}$ 减掉该向量中关于 $\boldsymbol{d_0}$ 不构成共轭的那部分，即保留该向量中与 $\boldsymbol{d_0}$ 共轭的那部分分量，即得到 $\boldsymbol{d_1}$ ，后续构建的向量依次类推，公式如下：
$\boldsymbol{d_i}=\boldsymbol{u_i}+\sum_{k=0}^{i-1}\beta_{ik} \boldsymbol{d_k}\tag{8}$
为了求解 $\beta_{ik}$ ，我们将等式两侧同时左乘 $\boldsymbol{d_j}^\mathrm{T}\boldsymbol{Q}$ ，有：
$\boldsymbol{d_j}^\mathrm{T}\boldsymbol{Q}\boldsymbol{d_i}=\boldsymbol{d_j}^\mathrm{T}\boldsymbol{Q}\boldsymbol{u_i}+\boldsymbol{d_j}^\mathrm{T}\boldsymbol{Q}\sum_{k=0}^{i-1}\beta_{ik} \boldsymbol{d_k}\\ =\boldsymbol{d_j}^\mathrm{T}\boldsymbol{Q}\boldsymbol{u_i}+\boldsymbol{d_j}^\mathrm{T}\boldsymbol{Q}\beta_{ij} \boldsymbol{d_j}=0,(i>j)\\ \therefore \beta_{ij}=-\displaystyle\frac{\boldsymbol{d_j}^\mathrm{T}\boldsymbol{Q}\boldsymbol{u_i}}{\boldsymbol{d_j}^\mathrm{T}\boldsymbol{Q}\boldsymbol{d_j}}\tag{9}$
由公式可知，每构造一个新的共轭向量，我们需要保存之前已构造的共轭向量，进而计算 $\beta_{ik}$ ，操作复杂度高。

有没有办法解决这个问题呢？在迭代过程中，我们利用残差向量来构造共轭向量，即 $\boldsymbol{u_i}=\boldsymbol{r_i}$ ，这是因为残差向量有一个非常好的性质，即：
$\boldsymbol{r_{i}}^\mathrm{T}\boldsymbol{r_{j}}=0,i \neq j\tag{10}$
即当前残差向量与之前所有的残差向量均正交，所以只要残差向量不为 $0$ ，一定会产生新的方向的分量，即是线性无关的一组向量，这是因为如前所述 $\boldsymbol{e_{j}}$ 中已经不包含由 $\boldsymbol{d_i}$ 方向分量，故有 $\boldsymbol{d_i^\mathrm{T}}\boldsymbol{r_{j}}=\boldsymbol{d_i^\mathrm{T}}\boldsymbol{Q}\boldsymbol{e_{j}}=0$ ，由式 $(8)$ 有：
$\boldsymbol{d_i^\mathrm{T}}\boldsymbol{r_{j}}=\boldsymbol{u_i^\mathrm{T}}\boldsymbol{r_{j}}+\sum_{k=0}^{i-1}\beta_{ik} \boldsymbol{d_k^\mathrm{T}}\boldsymbol{r_{j}}\\ 0=\boldsymbol{u_i^\mathrm{T}}\boldsymbol{r_{j}}\\ 取\boldsymbol{u_i}=\boldsymbol{r_i}，即有\boldsymbol{r_{i}}^\mathrm{T}\boldsymbol{r_{j}}=0,i \neq j\tag{11}$
故 $\beta_{ij}=-\displaystyle\frac{\boldsymbol{d_j}^\mathrm{T}\boldsymbol{Q}\boldsymbol{r_i}}{\boldsymbol{d_j}^\mathrm{T}\boldsymbol{Q}\boldsymbol{d_j}}$ ，残差向量 $\boldsymbol{r_i}$ 满足下面的迭代公式：
$\boldsymbol{r_{i+1}}=-\boldsymbol{Q}\boldsymbol{e_{i+1}}\\ =-\boldsymbol{Q}(\boldsymbol{e_{i}+\alpha_{i}\boldsymbol{d_{i}}}) \\=\boldsymbol{r_{i}}-\alpha_{i}\boldsymbol{Q}\boldsymbol{d_{i}}\tag{12}$

由上式可得：
$\boldsymbol{r_{i}^\mathrm{T}}\boldsymbol{r_{j+1}}=\boldsymbol{r_{i}^\mathrm{T}}\boldsymbol{r_{j}}-\alpha_{j}\boldsymbol{r_{i}^\mathrm{T}}\boldsymbol{Q}\boldsymbol{d_{j}}\\ \therefore \alpha_{j}\boldsymbol{r_{i}^\mathrm{T}}\boldsymbol{Q}\boldsymbol{d_{j}}=\boldsymbol{r_{i}^\mathrm{T}}\boldsymbol{r_{j}}-\boldsymbol{r_{i}^\mathrm{T}}\boldsymbol{r_{j+1}}\\ \therefore \boldsymbol{r_{i}^\mathrm{T}}\boldsymbol{Q}\boldsymbol{d_{j}}= \begin{cases}\displaystyle\frac{1}{\alpha_{i}}\boldsymbol{r_{i}^\mathrm{T}}\boldsymbol{r_{i}}&i=j\\ -\displaystyle\frac{1}{\alpha_{i-1}}\boldsymbol{r_{i}^\mathrm{T}}\boldsymbol{r_{i}}&i=j+1\\ 0&else \end{cases}\tag{13}$

将上式带入公式 $(9)$ ：
$\tag{14}\beta_{ij}=-\displaystyle\frac{\boldsymbol{d_j}^\mathrm{T}\boldsymbol{Q}\boldsymbol{u_i}}{\boldsymbol{d_j}^\mathrm{T}\boldsymbol{Q}\boldsymbol{d_j}}=-\displaystyle\frac{\boldsymbol{d_j}^\mathrm{T}\boldsymbol{Q}\boldsymbol{r_i}}{\boldsymbol{d_j}^\mathrm{T}\boldsymbol{Q}\boldsymbol{d_j}}= -\displaystyle\frac{\boldsymbol{r_i}^\mathrm{T}\boldsymbol{Q}\boldsymbol{d_j}}{\boldsymbol{d_j}^\mathrm{T}\boldsymbol{Q}\boldsymbol{d_j}} =\begin{cases} \displaystyle\frac{1}{\alpha_{i-1}}\displaystyle\frac{\boldsymbol{r_{i}^\mathrm{T}}\boldsymbol{r_{i}}}{\boldsymbol{d_{i-1}}^\mathrm{T}\boldsymbol{Q}\boldsymbol{d_{i-1}}}&i=j+1\\ 0&i>j+1 \end{cases}$

由此可见， $\beta_{ij}$ 中，只有一个非零项 $\beta_{i,i-1}$ ，这样只需要存储前一步的搜索方向向量就可以了，进一步将公式 $(7)$ 带入上式，有：
$\beta_{i,i-1}=\displaystyle\frac{\boldsymbol{d_{i-1}}^\mathrm{T}\boldsymbol{Q}\boldsymbol{d_{i-1}}}{\boldsymbol{d_{i-1}}^\mathrm{T}\boldsymbol{r_{i-1}}}\displaystyle\frac{\boldsymbol{r_{i}^\mathrm{T}}\boldsymbol{r_{i}}}{\boldsymbol{d_{i-1}}^\mathrm{T}\boldsymbol{Q}\boldsymbol{d_{i-1}}}\\ =\displaystyle\frac{\boldsymbol{r_{i}^\mathrm{T}}\boldsymbol{r_{i}}}{\boldsymbol{d_{i-1}}^\mathrm{T}\boldsymbol{r_{i-1}}}=\displaystyle\frac{\boldsymbol{r_{i}^\mathrm{T}}\boldsymbol{r_{i}}}{\boldsymbol{r_{i-1}}^\mathrm{T}\boldsymbol{r_{i-1}}}(由公式(11)可得)$

3.总结

至此，步长，迭代方向均已求出，共轭梯度法总结如下：

目标： $\min\displaystyle\frac{1}{2}\boldsymbol{x}^\mathrm{T}\boldsymbol{Q}\boldsymbol{x}-\boldsymbol{b}^\mathrm{T}\boldsymbol{x}$

初始迭代点： $\boldsymbol{x_0}$

初始迭代方向： $\boldsymbol{d_0}=\boldsymbol{r_0}=\boldsymbol{b}-\boldsymbol{Q}\boldsymbol{x_0}$

循环：

$\alpha_i=\displaystyle\frac{\boldsymbol{r_{i}}^\mathrm{T}\boldsymbol{r_{i}}}{\boldsymbol{d_{i}}^\mathrm{T}\boldsymbol{Q}\boldsymbol{d_{i}}}$

$\boldsymbol{x_{i+1}}=\boldsymbol{x_{i}}+\alpha_i\boldsymbol{d_{i}}$

$\boldsymbol{r_{i+1}}=\boldsymbol{r_{i}}-\alpha_i\boldsymbol{Q}\boldsymbol{d_{i}}$

$\beta_{i+1}=\displaystyle\frac{\boldsymbol{r_{i+1}^\mathrm{T}}\boldsymbol{r_{i+1}}}{\boldsymbol{r_{i}}^\mathrm{T}\boldsymbol{r_{i}}}$

$\boldsymbol{d_{i+1}}=\boldsymbol{r_{i+1}}+\beta_{i+1}\boldsymbol{d_{i}}$

参考：https://flat2010.github.io/2018/10/26/%E5%85%B1%E8%BD%AD%E6%A2%AF%E5%BA%A6%E6%B3%95%E9%80%9A%E4%BF%97%E8%AE%B2%E4%B9%89/#8-%E5%85%B1%E8%BD%AD%E6%A2%AF%E5%BA%A6%E6%B3%95

Drama65535

关注

7
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
共轭梯度法推导

1.共轭向量在介绍共轭梯度法前，首先介绍一下共轭向量的概念。对于向量e1\boldsymbol{e_1}e1，e2\boldsymbol{e_2}e2，如果两个向量正交，则有e1Te2=0\boldsymbol{e_1}^\mathrm{T}\boldsymbol{e_2}=0e1Te2=0，那么对于共轭向量来说，假设有一正定对称矩阵A\boldsymbol{A}A，如果e1TAe2=...
复制链接

扫一扫