矩阵乘法可交换与可同时对角化的关系 —— Umeyama 算法推导的数学准备 (I)

wzf@robotics_notes

已于 2023-10-30 20:47:48 修改

阅读量998

点赞数 1

分类专栏：数学基础文章标签：矩阵线性代数机器人自动驾驶算法

于 2023-10-26 23:53:30 首次发布

本文链接：https://blog.csdn.net/woyaomaishu2/article/details/134067166

版权

数学基础专栏收录该内容

13 篇文章 0 订阅

订阅专栏

Title: 矩阵乘法可交换与可同时对角化的关系 —— Umeyama 算法推导的数学准备 (I)

文章目录

引言
定理
证明
参考文献

引言

之所以把这个矩阵乘法可交换充分必要条件的定理^[1]的证明自己消化一下, 是因为在点云配准的奇异值算法 (Umeyama 算法) 中用到了. 我们先把一些数学基础准备好, 最后推导 Umeyama 算法. 本博客文章就是其中的一个数学准备.

当然这些数学定理在教科书中都能找到, 我只是学着用自己的语言很啰嗦地再推一遍, 减少了一点理解难度, 也为了自己后面查阅.

定理

定理^[1]

A necessary and sufficient condition that there exist an orthogonal matrix $\mathbf{T}$ with the property that
$\mathbf{T}' \mathbf{A} \mathbf{T}=\begin{bmatrix} \begin{matrix}\lambda_1 & \\ &\lambda_2 \end{matrix} & 0\\ 0 &\begin{matrix}\ddots & \\ &\lambda_n \end{matrix} \end{bmatrix}\\ \mathbf{T}' \mathbf{B} \mathbf{T}=\begin{bmatrix} \begin{matrix}\mu_1 & \\ &\mu_2 \end{matrix} & 0\\ 0 &\begin{matrix}\ddots & \\ &\mu_n \end{matrix} \end{bmatrix}$
is that $A$ and $B$ commute.

证明

1. 充分性

因为需要正交相似特性, 矩阵 $\mathbf{A}$ 和 $\mathbf{B}$ 都是对称阵.

情况一: 如果两个矩阵中有任一矩阵只具有单特征值

假设 $\mathbf{A}$ 具有各不相同的特征值, 其中一个特征值为 $\lambda_i$ , 对应特征向量为 $\mathbf{x}_i$ (其中 $i=1,2,\ldots,n$ ). 则有
$\mathbf{A}\mathbf{x_i} = \lambda_i \mathbf{x_i} \tag{I-1-1}$
由 $\mathbf{A}$ 和 $\mathbf{B}$ 乘法可交换条件, 可知
$\mathbf{A} (\mathbf{B}\mathbf{x_i}) = \mathbf{B} (\mathbf{A}\mathbf{x_i}) = \mathbf{B}(\lambda_i \mathbf{x_i}) = \lambda_i (\mathbf{B} \mathbf{x_i}) \tag{I-1-2}$
所以 $\mathbf{B} \mathbf{x_i}$ 也是 $\mathbf{A}$ 对应于特征值 $\lambda_i$ 的特征向量.

由"几何重数小于等于代数重数" 可知特征向量构成的向量空间的维度为 1, 故 $\mathbf{B} \mathbf{x_i}$ 与 $\mathbf{x_i}$ 是不独立的. 即存在一个标量 $\mu_i$ 使得下式成立
$\mathbf{B} \mathbf{x_i} = \mu_i \mathbf{x_i} \tag{I-1-3}$
其中 $i=1,2,\ldots,n$ 上式都满足.

事实上, 由式 (I-1-3) 可知 $\mu_i$ 和 $\mathbf{x}_i$ 是 $\mathbf{B}$ 的特征值和对应的特征向量 ( $i=1,2,\ldots,n$ ).

那么 $\mathbf{A}$ 和 $\mathbf{B}$ 拥有相同的特征向量 $\mathbf{x}_i$ ( $i=1,2,\ldots,n$ ), 可以构造
$\mathbf{T}= \begin{bmatrix} \mathbf{x}_1 &\mathbf{x}_2 &\cdots &\mathbf{x}_n \end{bmatrix}$
因为 “对称矩阵的不同特征值对应的特征向量是相互正交的”, 故 $\mathbf{T}$ 是正交矩阵. 因为 $\mathbf{T}$ 由 $\mathbf{A}$ 和 $\mathbf{B}$ 的特征向量构成, 所以能对 $\mathbf{A}$ 和 $\mathbf{B}$ 对角化.

得到结论.

情况二: 如果两个矩阵都有多重特征值

A. 第一个矩阵的特征向量

假设一般情况, $\lambda_1$ 为 $\mathbf{A}$ 的多重特征值, 对应特征向量有 $\mathbf{x}_1,\, \mathbf{x}_2,\, \ldots, \,\mathbf{x}_k$ . 通过施密特正交化过程可以使得同一特征值对应的这些特征向量之间相互正交.

不像式 (I-1-3) 所示同一单特征值对应的不同特征向量之间相差一个标量乘数. 多重特征值的特征向量之间的关系相对复杂.

因为 $n$ 阶对称矩阵具有 $n$ 个线性无关的特征向量, 所以任何 $n$ 维向量都可以通过这些特征向量来构建. 那么我们就从 $\mathbf{A}$ 全体特征向量中, 构造对应于 $\lambda_1$ 的新特征向量 $\mathbf{y}$
$\mathbf{y} = \sum_{j=1}^{\color{red}n} c_{j}\mathbf{x_j} \tag{I-2-A-1}$
由特征向量的性质
$\mathbf{A}\mathbf{y} = \lambda_1 \mathbf{y} \tag{I-2-A-2}$
并将式 (I-2-A-1) 代入
$\mathbf{A} \sum_{j=1}^{n} c_{j}\mathbf{x_j} = \lambda_1 \sum_{j=1}^{n} c_{j}\mathbf{x_j} \tag{I-2-A-3}$
因为特征向量 $\mathbf{x}_1,\, \mathbf{x}_2,\, \ldots, \,\mathbf{x}_n$ 之间都线性无关, 要让式 (I-2-A-3) 成立只能下式成立
$c_{q}\mathbf{A}\mathbf{x_q} = c_{q} \lambda_1 \mathbf{x}_q\qquad (\text{for}\;\; q=1,2,\ldots,n) \tag{I-2-A-4}$
并且当 $\mathbf{x}_q$ ( $q\neq 1,2,\ldots,k$ ) 不是 $\lambda_1$ 的特征向量时,
$\mathbf{A}\mathbf{x}_q \neq \lambda_1 \mathbf{x}_q \tag{I-2-A-5}$
此时只能 $c_{q} =0$ .

所以与多重特征值 $\lambda_1$ 相关的新构造的特征向量和原有的特征向量之间的线性关系如下
$\mathbf{y} = \sum_{j=1}^{\color{green}k} c_{j}\mathbf{x_j} \tag{I-2-A-6}$
多重特征值 $\lambda_1$ 相关的特征向量 $\mathbf{x}_1,\, \mathbf{x}_2,\, \ldots, \,\mathbf{x}_k$ 的线性组合也是其相关的特征向量.

B. 第二个矩阵的特征向量

同样由 $\mathbf{A}$ 和 $\mathbf{B}$ 乘法可交换条件, 可知
$\mathbf{A} (\mathbf{B}\mathbf{x_i}) = \mathbf{B} (\mathbf{A}\mathbf{x_i}) = \mathbf{B}(\lambda_1 \mathbf{x_i}) = \lambda_1 (\mathbf{B} \mathbf{x_i}), \qquad (\text{for}\;\; i=1,2,\ldots, k) \tag{I-2-B-1}$
所以 $\mathbf{B} \mathbf{x_i}$ 也是 $\mathbf{A}$ 对应于特征值 $\lambda_1$ 的特征向量. 由 $\lambda_1$ 新特征向量的构造式 (I-2-A-6) 可知
$\mathbf{B} \mathbf{x}_{i} = \sum_{p=1}^{k} c_{ip}\mathbf{x_p} , \qquad (\text{for}\;\; i=1,2,\ldots, k) \tag{I-2-B-2}$
利用特征向量之间的正交性 (施密特正交化后的) 可知,
$\mathbf{x}_j^{\small\rm T} \mathbf{B} \mathbf{x}_{i} =\mathbf{x}_j^{\small\rm T} \sum_{p=1}^{k} c_{ip} \mathbf{x_p} = c_{ij}, \qquad(\text{for}\;\; i, j = 1,2,\ldots,k)\tag{I-2-B-3}$

$\left( \mathbf{x}_j^{\small\rm T} \mathbf{B} \mathbf{x}_{i}\right)^{\small\rm T} = \mathbf{x}_i^{\small\rm T} \mathbf{B} \mathbf{x}_{j} =\mathbf{x}_i^{\small\rm T} \sum_{p=1}^{k} c_{jp} \mathbf{x_p} = c_{ji}, \qquad(\text{for}\;\; i, j = 1,2,\ldots,k)\tag{I-2-B-4}$

因为 $\mathbf{x}_j^{\small\rm T} \mathbf{B} \mathbf{x}_{i}$ 是标量, 转置不变. 所以有
$c_{ij} = c_{ji},\qquad (\text{for}\;\; i, j = 1,2,\ldots,k)\tag{I-2-B-5}$
再次构造 $\lambda_1$ 对应的正交特征向量 $\mathbf{x}_1,\, \mathbf{x}_2,\, \ldots, \,\mathbf{x}_k$ 的线性组合 $\sum_{i=1}^{k} a_i \mathbf{x}_i$ , 其中 $a_i$ ( $i=1,2,\ldots,k$ ) 是待确定的系数. 可以得到
$\begin{aligned} \mathbf{B}\left( \sum_{i=1}^{k} a_i \mathbf{x}_i \right) &= \sum_{i=1}^{k} a_i \left(\mathbf{B}\mathbf{x}_i\right) \\ {\small{\text{(I-2-B-2)}}} \qquad &= \sum_{i=1}^{k} a_i \left( \sum_{j=1}^{k} c_{ij}\mathbf{x_j} \right)\\ &= \sum_{j=1}^{k} \left( \sum_{i=1}^{k} c_{ij} a_i \right) \mathbf{x_j} \end{aligned} \tag{I-2-B-6}$

下面通过 $a_i$ 的取值, 凑出 $\mathbf{B}$ 的特征值和特征向量.

$\begin{aligned} \begin{bmatrix} \sum_{i=1}^{k} c_{i1} a_i\\ \sum_{i=1}^{k} c_{i2} a_i\\ \vdots\\ \sum_{i=1}^{k} c_{ij} a_i \end{bmatrix} &= \begin{bmatrix} c_{11} &c_{21} &\cdots &c_{k1}\\ c_{12} &c_{22} &\cdots &c_{k2}\\ \vdots &\vdots &\ddots &\vdots\\ c_{1k} &c_{2k} &\cdots &c_{kk}\\ \end{bmatrix} \begin{bmatrix} a_1\\ a_2\\ \vdots\\ a_k \end{bmatrix}\\ {\small\text{(I-2-B-5)}}\quad & = \begin{bmatrix} c_{11} &c_{12} &\cdots &c_{1k}\\ c_{21} &c_{22} &\cdots &c_{2k}\\ \vdots &\vdots &\ddots &\vdots\\ c_{k1} &c_{k2} &\cdots &c_{kk}\\ \end{bmatrix} \begin{bmatrix} a_1\\ a_2\\ \vdots\\ a_k \end{bmatrix} \end{aligned} \tag{I-2-B-7}$

已知矩阵

$\mathbf{C}\triangleq \begin{bmatrix} c_{11} &c_{12} &\cdots &c_{1k}\\ c_{21} &c_{22} &\cdots &c_{2k}\\ \vdots &\vdots &\ddots &\vdots\\ c_{k1} &c_{k2} &\cdots &c_{kk}\\ \end{bmatrix} \tag{I-2-B-8}$

是对称矩阵. $k$ 阶对称矩阵 $\mathbf{C}$ 必然存在 $k$ 个线性无关的特征向量, 以及至少一个特征值. 我们将待定系数 $[a_1, a_2, \ldots, a_k]^{\small\rm T}$ 确定为 $\mathbf{C}$ 的一个特征向量, 其对应的特征值是 $\mu$ , 则有

$\begin{bmatrix} c_{11} &c_{12} &\cdots &c_{1k}\\ c_{21} &c_{22} &\cdots &c_{2k}\\ \vdots &\vdots &\ddots &\vdots\\ c_{k1} &c_{k2} &\cdots &c_{kk}\\ \end{bmatrix} \begin{bmatrix} a_1\\ a_2\\ \vdots\\ a_k \end{bmatrix} = \mu \begin{bmatrix} a_1\\ a_2\\ \vdots\\ a_k \end{bmatrix} \tag{I-2-B-9}$

即

$\begin{bmatrix} \sum_{i=1}^{k} c_{i1} a_i\\ \sum_{i=1}^{k} c_{i2} a_i\\ \vdots\\ \sum_{i=1}^{k} c_{ij} a_i \end{bmatrix} = \mu \begin{bmatrix} a_1\\ a_2\\ \vdots\\ a_k \end{bmatrix} \tag{I-2-B-10}$

上式代入式 (I-2-B-6) 得到

$\begin{aligned} \mathbf{B}\left( \sum_{i=1}^{k} a_i \mathbf{x}_i \right) &= \sum_{j=1}^{k} \left( \sum_{i=1}^{k} c_{ij} a_i \right) \mathbf{x_j}\\ {\small\text{(I-2-B-10)}} \qquad &= \sum_{j=1}^{k} \left( \mu a_j \right) \mathbf{x_j}\\ &= \mu \left( \sum_{j=1}^{k} a_j \mathbf{x_j}\right) \end{aligned} \tag{I-2-B-11}$

由上式可以看出 $\sum_{j=1}^{k} a_j \mathbf{x_j}$ 是 $\mathbf{B}$ 的对应于特征值 $\mu$ 的特征向量. 事实上, 如果 $\lambda_1$ 对应的重数降为 1, 式 (I-2-B-11) 就会降为式 (I-1-3), 可以看出式兼容的.

C. 两个矩阵共同特征向量的性质

因为 $k$ 阶矩阵 $\mathbf{C}$ 是对称矩阵, 其具有 $k$ 个正交的特征向量, 记作 ${\boldsymbol{\alpha}_j}$ ( $j=1,2,\ldots, k$ ). 将这些特征向量元素按列排列为
$\mathbf{T}_k \triangleq\begin{bmatrix}{\boldsymbol{\alpha}_1} & {\boldsymbol{\alpha}_2} &\ldots & {\boldsymbol{\alpha}_k}\end{bmatrix} =\begin{bmatrix} a_{11} &a_{12} &\cdots & a_{1k}\\ a_{21} &a_{22} &\cdots & a_{2k}\\ \vdots &\vdots &\ddots &\vdots\\ a_{k1} &a_{k2} &\cdots & a_{kk} \end{bmatrix} \tag{I-2-C-1}$

故 $\mathbf{T}_k$ 是正交矩阵.

依照式 (I-2-B-11) 以 $\mathbf{T}_k$ 的每列作为不同线性组合系数来构成 $\mathbf{B}$ 的特征向量

$\begin{bmatrix}\mathbf{x}_1 & \mathbf{x}_2 &\cdots &\mathbf{x}_k \end{bmatrix} \begin{bmatrix} a_{11} &a_{12} &\cdots & a_{1k}\\ a_{21} &a_{22} &\cdots & a_{2k}\\ \vdots &\vdots &\ddots &\vdots\\ a_{k1} &a_{k2} &\cdots & a_{kk} \end{bmatrix} = \begin{bmatrix}\mathbf{x}_1 & \mathbf{x}_2 &\cdots &\mathbf{x}_k \end{bmatrix} \,\mathbf{T}_k \tag{I-2-C-3}$

我们已经知道 “多重特征值 $\lambda_1$ 相关的特征向量 $\mathbf{x}_1,\, \mathbf{x}_2,\, \ldots, \,\mathbf{x}_k$ 的线性组合也是其相关的特征向量”, 故 $([\mathbf{x}_1,\mathbf{x}_2, \cdots , \mathbf{x}_k ] \,\mathbf{T}_k)$ 也是 $\mathbf{A}$ 的对应于 $\lambda_1$ 的 $k$ 组特征向量.

如果有第二个多重特征值 $\lambda_2$ 对应的特征向量 $\mathbf{x}_k+1,\, \mathbf{x}_k+2,\, \ldots, \,\mathbf{x}_k+p$ , 同样存在一个 $p$ 阶的正交阵 $\mathbf{T}_p$ , 使得 $([\mathbf{x}_k+1,\, \mathbf{x}_k+2,\, \ldots, \,\mathbf{x}_k+p] \,\mathbf{T}_p)$ 同时是 $\mathbf{A}$ 和 $\mathbf{B}$ 的特征向量.

如有更多多重特征值, 以此类推.

对应于单特征值的特征向量 (如 $\lambda_3, \ldots, \lambda_l$ 对应的 $\mathbf{x}_{k+p+1}, \ldots, \mathbf{x}_n$ ), 根据 “情况一: 如果两个矩阵中有任一矩阵只具有单特征值” 部分的分析, 这些特征向量都同时是 $\mathbf{A}$ 和 $\mathbf{B}$ 的特征向量, 无需再做处理.

统合以上情况, 我们把 $\mathbf{A}$ 和 $\mathbf{B}$ 共同的特征向量写在一起为

$\mathbf{T} \triangleq \left[ \begin{array}{ccc:ccc:ccc} \mathbf{x}_1 &\cdots &\mathbf{x}_k & \mathbf{x}_{k+1} &\cdots &\mathbf{x}_{k+p} & \mathbf{x}_{k+p+1} &\cdots &\mathbf{x}_n \end{array} \right] \left[ \begin{array}{c:c:c}\mathbf{T}_k & & \\ \hdashline & \mathbf{T}_p & \\ \hdashline & &\begin{matrix} 1 & &\\ & \ddots &\\ &&1 \end{matrix} \end{array}\right] \tag{I-2-C-4}$

因为相乘的两部分矩阵都是正交矩阵, 则 $\mathbf{T}$ 是正交矩阵.

因为 $\mathbf{T}$ 由 $\mathbf{A}$ 和 $\mathbf{B}$ 的特征向量构成, 所以能对 $\mathbf{A}$ 和 $\mathbf{B}$ 对角化.

至此充分性证明完毕.

2. 必要性

因为
$\mathbf{A} = \mathbf{T}\begin{bmatrix} \begin{matrix}\lambda_1 & \\ &\lambda_2 \end{matrix} & 0\\ 0 &\begin{matrix}\ddots & \\ &\lambda_n \end{matrix} \end{bmatrix} \mathbf{T}^{\small\rm T} \tag{II-1}$

$\mathbf{B} = \mathbf{T}\begin{bmatrix} \begin{matrix}\mu_1 & \\ &\mu_2 \end{matrix} & 0\\ 0 &\begin{matrix}\ddots & \\ &\mu_n \end{matrix} \end{bmatrix} \mathbf{T}^{\small\rm T} \tag{II-2}$