矩阵的特征值与奇异值

最新推荐文章于 2024-05-03 19:09:18 发布

yuntian_li

最新推荐文章于 2024-05-03 19:09:18 发布

阅读量2.7k

点赞数

分类专栏：视觉SLAM理论基础

本文链接：https://blog.csdn.net/weixin_43991178/article/details/104906655

版权

视觉SLAM理论基础专栏收录该内容

3 篇文章 3 订阅

订阅专栏

矩阵的特征值与奇异值

特征值分解（EVD）
奇异值分解（SVD）
SVD的性质及应用
- 矩阵降维
- 求解齐次方程

特征值分解（EVD）

对于 $n$ 阶方阵 $\bm{A}$ 来说，其特征值定义为：
$\bm{A}\bm{u}=\lambda\bm{u}$

式中 $\lambda$ 为矩阵 $\bm{A}$ 的特征值， $\bm{u}$ 为矩阵 $\bm{A}$ 的特征矢量。进一步地，如果 $\bm{A}$ 为实对称矩阵，且我们求出了矩阵 $\bm{A}$ 所有的特征值 $\{\lambda_1,\lambda_2,\cdots,\lambda_n\}$ 和对应的特征矢量 $\{\bm{u}_1,\bm{u}_2,\cdots,\bm{u}_n\}$ 。对于实对称矩阵来说，其特征矢量两两正交，因此对于所有的特征值和特征矢量，我们有：
$\begin{aligned} &\left\{ \begin{aligned} \bm{A}\bm{u}_1&=\lambda_1\bm{u}_1\\ \bm{A}\bm{u}_2&=\lambda_2\bm{u}_2\\ &\vdots\\ \bm{A}\bm{u}_n&=\lambda_n\bm{u}_n \end{aligned} \right.\\ \Rightarrow\bm{A}\underbrace{\left[\begin{array}{cccc}\bm{u}_1 & \bm{u}_2 & \cdots & \bm{u}_n\end{array}\right]}_{\bm{U}}&=\underbrace{\left[\begin{array}{cccc}\bm{u}_1 & \bm{u}_2 & \cdots & \bm{u}_n\end{array}\right]}_{\bm{U}}\underbrace{\begin{bmatrix} \lambda_1 & &&\\ &\lambda_2&&\\ &&\ddots&\\ &&&\lambda_n \end{bmatrix}}_{\bm{\Lambda}}\\ \Rightarrow\bm{AU}&=\bm{U\Lambda}\\ \Rightarrow\bm{A}&=\bm{U\Lambda}\bm{U}^{-1}=\bm{U\Lambda}\bm{U}^T\\ \end{aligned}$

上式即为实对称矩阵的特征值分解。

由于 $\{\bm{u}_1,\bm{u}_2,\cdots,\bm{u}_n\}$ 相互正交，其实际上是 $n$ 维空间的一组标准正交基，因此对于任意矢量 $\bm{x}\in\mathbb{R}^n$ 来说，其可以表示为标准正交基的线性组合形式，即 $\bm{x}=\sum\limits_{i=1}^na_i\bm{u}_i=\bm{U}\left[a_1,a_2,\cdots,a_n\right]^T$ ，则：
$\bm{Ax}=\bm{U}\bm{\Lambda}\bm{U}^T\bm{U}\left[\begin{array}{c}a_1 \\ a_2 \\ \vdots \\ a_n\end{array}\right]$

可以看出 $\bm{A}$ 矩阵实际上对矢量 $\bm{x}$ 进行了三步操作：1）首先反解出了 $\bm{x}$ 在 $n$ 维标准正交基下的系数；2）随后将其按照对应的特征值进行缩放；3）最后映射到回 $n$ 维标准正交基下。在这一过程中，如果存在只有 $k < n$ 个非零特征值，那么映射后的矢量亦只有 $k$ 维非零，即落入了 $n$ 维空间的子空间中。

EVD算法要求矩阵 $\bm{A}$ 必须为实对称矩阵，但实际上在很多问题中，我们的矩阵 $\bm{A}$ 是任意的 $m\times n$ 矩阵，这是EVD无法完成矩阵的分解，就需要使用奇异值分解（SVD）方法。

特征值分解的一个广泛应用在于求解矩阵的逆，利用特征值分解我们很容易得到矩阵 $\bm{A}$ 的逆矩阵为：
$\bm{A}^{-1}=\left(\bm{U\Lambda}\bm{U}^T\right)^{-1}=\bm{U\Lambda}^{-1}\bm{U}^T$

奇异值分解（SVD）

对于任意秩为 $k$ 的 $m\times n$ 矩阵 $\bm{A}$ 来说，参照EVD，其同样可以表示将一个 $n$ 维矢量 $\bm{x}$ 映射到 $m$ 维标准正交空间，即我们同样可以将 $\bm{A}$ 分解为一个 $m$ 维标准正交基矩阵 $\bm{U}=\left[\bm{u}_1,\bm{u}_2,\cdots,\bm{u}_m\right]$ 、一个增广的对角矩阵 $\bm{\Sigma}$ 和一个 $n$ 维标准正交基矩阵的转置 $\bm{V}^T=\left[\bm{v}_1^T,\bm{v}_2^T,\cdots,\bm{v}_n^T\right]^T$ 的乘积形式，即：
$\bm{A}_{m\times n}=\bm{U}_{m\times m}\bm{\Sigma}_{m\times n}\bm{V}^T_{n\times n}$

虽然 $\bm{A}$ 本身不是实对称矩阵，但 $\bm{A}\bm{A}^T$ 以及 $\bm{A}^T\bm{A}$ 是实对称矩阵，因此分别有：
$\begin{aligned} \bm{A}\bm{A}^T&=\bm{U}\bm{\Sigma}\bm{V}^T\bm{V}\bm{\Sigma}^T\bm{U}^T=\bm{U}\bm{\Sigma}\bm{\Sigma}^T\bm{U}^T\\ \bm{A}^T\bm{A}&=\bm{V}\bm{\Sigma}^T\bm{U}^T\bm{U}\bm{\Sigma}\bm{V}^T=\bm{V}\bm{\Sigma}^T\bm{\Sigma}\bm{V}^T \end{aligned}$

显然根据EVD分解，矩阵 $\bm{U}$ 和 $\bm{V}$ 分别为由 $\bm{A}\bm{A}^T$ 和 $\bm{A}^T\bm{A}$ 特征矢量构成的正交基矩阵。进一步地，由于 $Rank(\bm{A})=k$ ，因此特征值矩阵 $\bm{\Sigma}\bm{\Sigma}^T$ 和 $\bm{\Sigma}^T\bm{\Sigma}$ 只有 $k$ 个非零项：
$\begin{aligned} \bm{\Sigma}\bm{\Sigma}^T&=\begin{bmatrix} \lambda_1&&&&&\\ &\ddots&&&&\\ &&\lambda_k&&&\\ &&&0&&\\ &&&&\ddots&\\ &&&&&0 \end{bmatrix}_{m\times m}=\begin{bmatrix} \bm{\lambda}_{k\times k} & \bm{0}\\ \bm{0} & \bm{0} \end{bmatrix}_{m\times m}\\ \bm{\Sigma}^T\bm{\Sigma}&=\begin{bmatrix} \bm{\lambda}_{k\times k} & \bm{0}\\ \bm{0} & \bm{0} \end{bmatrix}_{n\times n}\\ \end{aligned}$

同时利用 $\bm{\Sigma}$ 只存在主对角线元素有：
$\bm{\Sigma}=\begin{bmatrix} \sqrt{\lambda_1}&&&&\\ &\ddots&&&\\ &&\sqrt{\lambda_k}&\cdots&0\\ &&\vdots&\ddots&\\ &&0&&0 \end{bmatrix}=\begin{bmatrix} \sqrt{\bm{\lambda}} & \bm{0}\\ \bm{0} & \bm{0} \end{bmatrix}$

即奇异值 $\sigma_i=\sqrt{\lambda_i}$ 。

至此，我们推到了一般矩阵的SVD分解可以写为如下形式：
$\bm{A}=\bm{U}\bm{\Sigma}\bm{V}^T$
其中 $\bm{U}$ 称为矩阵 $\bm{A}$ 的左奇异值矩阵， $\bm{V}$ 称为矩阵 $\bm{A}$ 的右奇异值矩阵。

SVD的性质及应用

矩阵降维

在前面的分析中我们知道，对于秩为 $k$ 的 $m\times n$ 矩阵 $\bm{A}$ 来说，其非零奇异值只有 $k$ 个，我们将SVD分解中的三个矩阵其写成分块矩阵形式有：
$\bm{A}=\begin{bmatrix} \bm{u}_k & \bm{u}_{m-k} \end{bmatrix}\begin{bmatrix} \bm{\sigma}_k & \bm{0}\\ \bm{0} & \bm{0} \end{bmatrix}\begin{bmatrix} \bm{v}_k^T \\ \bm{v}_{n-k}^T \end{bmatrix}=\begin{bmatrix} \bm{u}_k\bm{\sigma}_k\bm{v}_k^T & \bm{0}\\ \bm{0} & \bm{0} \end{bmatrix}$

可以看出， $\bm{A}$ 矩阵所包含的信息量完全等价于 $\bm{u}_k\bm{\sigma}_k\bm{v}_k^T$ 这三个小矩阵的乘积，显然矩阵计算的维数得到了显著下降，这也是SVD算法被广泛用于PCA降维的原因。

求解齐次方程

对于齐次方程 $\bm{A}\bm{x}=\bm{0}$ 来说，若其满秩，则方程只有零解。而在参数拟和等问题中，我们经常会遇到量测的数量 $m$ 远大于待估计变量的数量 $n$ 的情况，此时方程 $\bm{A}\bm{x}=\bm{0}$ 是超定方程（ $m > n$ ）。这类方程并没有精确解，只能求解最小二乘解，而SVD正是求解最小二乘解的常用方法。

记需要求解的最小二乘代价函数为（为了书写方便这里省略常系数 $\frac{1}{2}$ ）：
$\bm{e}(\bm{x})=\|\bm{Ax}\|^2=\bm{x}^T\bm{A}^T\bm{A}\bm{x}$

带入矩阵 $\bm{A}$ 的SVD分解有（注意这里矩阵 $\bm{A}$ 必须是列满秩的，即存在 $n$ 个非零的奇异值）：
$\begin{aligned} \bm{e}(\bm{x})&=\bm{x}^T\bm{A}^T\bm{A}\bm{x}\\ &=\bm{x}^T\bm{V}\bm{\Sigma}^T\bm{U}\bm{U}^T\bm{\Sigma}\bm{V}^T\bm{x}\\ &=\bm{x}^T\bm{V}\bm{\Sigma}^T\bm{\Sigma}\bm{V}^T\bm{x}\\ &=\bm{x}^T\bm{V}\begin{bmatrix} \sigma_1^2&&\\ &\ddots&\\ &&\sigma_n^2\\ \end{bmatrix}\bm{V}^T\bm{x} \end{aligned}$

由于 $\{\bm{v}_1,\bm{v}_2,\cdots,\bm{v}_n\}$ 是 $n$ 维空间的标准正交基，因此 $\bm{x}$ 可以表示为 $\bm{x}=\sum\limits_{i=1}^na_i\bm{v}_i=\bm{V}\left[a_1,a_2,\cdots,a_n\right]^T$ ，带入代价函数有：
$\begin{aligned} \bm{e}(\bm{x})&=\bm{x}^T\bm{V}\begin{bmatrix} \sigma_1^2&&\\ &\ddots&\\ &&\sigma_n^2\\ \end{bmatrix}\bm{V}^T\bm{x}\\ &=\left[\begin{array}{cccc}a_1 & a_2 & \cdots & a_n\end{array}\right]\bm{V}^T\bm{V}\begin{bmatrix} \sigma_1^2&&\\ &\ddots&\\ &&\sigma_k^2\\ \end{bmatrix}\bm{V}^T\bm{V}\left[\begin{array}{c}a_1 \\ a_2 \\ \vdots \\ a_n\end{array}\right]\\ &=\sum\limits_{i=1}^na_i^2\sigma_i^2 \end{aligned} \tag{1}$

我们假设奇异值矩阵的排列顺序是有小到大的，同时，由于齐次方程两侧乘以常系数并不会改变方程解的情况，因此我们可以引入约束 $\|x\|=1$ ，那么有：
$\|x\|^2=1=\sum\limits_{i=1}^n\sum\limits_{j=1}^na_ia_j\bm{v}_i^T\bm{v}_j=\sum\limits_{i=1}^na_i^2 \tag{2}$

显然式（1）取得最小值的条件是除最小奇异值外所有奇异值项的系数为0，联立式（2）可以进一步得到 $a_n^2=1\Rightarrow a_n=1$ 。带回 $\bm{x}$ 的表达式有：
$\bm{x}=\sum\limits_{i=1}^na_i\bm{v}_i=\bm{v}_n$

即 $\bm{x}$ 为 $\bm{A}$ 最小奇异值 $\sigma_n$ 对应的右奇异值矢量 $\bm{v}_n$ 。

上述结论成立的条件是矩阵 $\bm{A}$ 存在 $n$ 个非零奇异值，即至少是列满秩的。若矩阵 $\bm{A}$ 不满秩，那么其对应的最小二乘如下：
$\begin{aligned} \bm{e}(\bm{x})&=\bm{x}^T\bm{A}^T\bm{A}\bm{x}\\ &=\bm{x}^T\bm{V}\bm{\Sigma}^T\bm{U}\bm{U}^T\bm{\Sigma}\bm{V}^T\bm{x}\\ &=\bm{x}^T\bm{V}\bm{\Sigma}^T\bm{\Sigma}\bm{V}^T\bm{x}\\ &=\bm{x}^T\bm{V}\begin{bmatrix} \sigma_1^2&&&\\ &\ddots&&\\ &&\sigma_k^2&\\ &&&\bm{0}_{n-k}\\ \end{bmatrix}\bm{V}^T\bm{x} \end{aligned}$

可以看出此时该最小二乘存在 $n - k$ 维的零空间，前 $k$ 维可以按同样的方法确定，而后 $n - k$ 维则是自由变量，可以任意变化。

yuntian_li

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
矩阵的特征值与奇异值

矩阵的特征值与奇异值奇异值分解SVD分解奇异值分解对于nnn阶方阵A\bm{A}A来说，其特征值定义为：Ax=λx\bm{A}\bm{x}=\lambda\bm{x}Ax=λx式中λ\lambdaλ为矩阵A\bm{A}A的特征值，x\bm{x}x为矩阵A\bm{A}A的特征矢量。如果我们求出了矩阵A\bm{A}A所有的特征值{λ1,λ2,⋯ ,λn}\{\lambda_1,\lambd...
复制链接

扫一扫

专栏目录