线代[5]｜特征值与特征向量、特征值的几何重数与代数重数

汉密士2025

已于 2025-02-23 12:25:12 修改

阅读量1.3w

点赞数 28

分类专栏：线性代数【精品】文章标签：线性代数

于 2020-05-10 22:17:56 首次发布

本文链接：https://blog.csdn.net/weixin_46959681/article/details/105917235

版权

线性代数【精品】专栏收录该内容

13 篇文章

订阅专栏

本文深入探讨了特征值和特征向量的概念，包括它们在矩阵数值计算中的应用，以及如何从几何层面理解它们的含义。文章详细讲解了特征值和特征向量的计算步骤，并通过实例展示了特征值的代数重数与几何重数的区别。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原创首发，转载请注明出处（CSDN：古希腊的汉密士），谢谢！

文章目录

一、前言

特征值和特征向量——在矩阵的数值计算中不可或缺的一环，但大多数人仅满足于套用公式 $\mathsf{f(\lambda)=\mid \lambda E-A\mid}$ 止步于粗浅地求出相应的数值和向量。在笔者看来未免太过可惜，没有真正从几何层面体验特征值和特征的向量，自然也就无法领略几何层面的优美。对于特征值和特征向量，笔者会先从大家熟悉的代数层面切入，然后引出多数人不熟悉的几何层面。但在开始之前，笔者首先对特征值和特征向量进行定义，再引入对于特征值来说两个比较特别的概念：代数重数和几何重数。代数重数和几何重数涉及矩阵的对角化，但对角化一节内容涉及过多非常琐碎，故笔者只取重数一瓢。

二、特征向量与特征值

｜概念阐明

定义设V是数域上的一个线性空间，A是V内的一个线性变换，如果对K内一个数 $\lambda$ ，存在V的一个向量 $\xi \ne 0$ ，使

$A\xi=\lambda\xi,$

则称 $\lambda$ 为A的一个特征值，而 $\xi$ 称为属于特征值 $\lambda$ 的特征向量. 如果 $\lambda_o$ 是A的一个特征值，定义

$V_{\lambda_o}=\lbrace \alpha\in V|A\alpha=\lambda_o\alpha\rbrace,$

该式由A的对应特征值 $\lambda_o$ 的全部特征向量再加上零向量所得的的V的子空间，称为特征值 $\lambda_o$ 的特征子空间。

给定数域K上的n阶方阵 $\mathsf{A=(a_{ij})},$ 令

$\mathsf{f(\lambda)=\mid \lambda E-A\mid=\begin{vmatrix} {\lambda-a_{11}}&{-a_{12}}&{\cdots}&{-a_{1n}}\\ {-a_{21}}&{\lambda-a_{22}}&{\cdots}&{-a_{2n}}\\ {\vdots}&{\vdots}&{\ddots}&{\vdots}\\ {-a_{n1}}&{-a_{n2}}&{\cdots}&{\lambda-a_{nn}}\\ \end{vmatrix}},$

从行列式的完全展开式可知 $f(\lambda)$ 的多项式，其系数属于数域K， $f(\lambda)$ 称为方阵A的特征多项式， $f(\lambda)$ 属于数域K的根称为方阵A的特征根或特征值.

｜数域K上n维线性空间V内线性变换A的特征值和特征向量的计算步骤

在V中给定一组基 $\mathsf{\epsilon_1,\epsilon_2,\cdots,\epsilon_n}$ ，求线性变换A在这组基下的具体矩阵A；
计算特征多项式 $f(\lambda)=\mid \lambda E-A\mid$ ；
求 $f(\lambda)=0$ 属于数域K的那些根 $\lambda_1,\lambda_2,\cdots,\lambda_s.$ （这里的 $\lambda$ 已经是已知数，而非未知数）；
对每一个 $\mathsf{\lambda_i(i=1,2,\cdots,s)}$ 求齐次方程组 $\mathsf{(\lambda_iE-A)X=0}$ 的一个基础解系. 具体计算式为

$\begin{bmatrix}{\lambda_i-a_{11}}&{-a_{12}}&{\cdots}&{-a_{1n}}\\{-a_{21}}&{\lambda_i-a_{22}}&{\cdots}&{-a_{2n}}\\{\vdots}&{\vdots}&{\ddots}&{\vdots}\\{-a_{n1}}&{-a_{n2}}&{\cdots}&{\lambda_i-a_{nn}}\\\end{bmatrix}\begin{bmatrix}x_1\\x_2\\\vdots\\x_n\\\end{bmatrix}=0$

以步骤（4）中求出的基础解系为坐标写出V中的一个向量组，其为 $\mathsf{V_{\lambda_i}}$ 的一组基。

$例题 1$ 设三维线性空间V内一个线性变换A在基 $\epsilon_1，\epsilon_2，\epsilon_3$ 下的矩阵为

$A=\begin{pmatrix}1&2&2\\2&1&2\\2&2&1\\\end{pmatrix},$
求A的全部特征值和对应的特征向量。

解：

特征多项式和特征值（特征根）

$\mathsf{f(\lambda)=\mid \lambda E-A \mid=\begin{vmatrix}{\lambda-1}&{-2}&{-2}\\{-2}&{\lambda-1}&{-2}\\{-2}&{-2}&{\lambda-1}\\\end{vmatrix}=(\lambda-5)\begin{vmatrix}{1}&{-2}&{-2}\\{1}&{\lambda-1}&{-2}\\{1}&{-2}&{\lambda-1}\\\end{vmatrix}=(\lambda-5)\begin{vmatrix}{1}&{-2}&{-2}\\{0}&{\lambda+1}&{0}\\{0}&{0}&{\lambda+1}\\\end{vmatrix}=(\lambda-5)(\lambda+1)^2},$

即 $\mathsf{f(\lambda)}$ 的根为 $\mathsf{\lambda_1=5,\lambda_2=\lambda_3=-1}$

特征值对应的特征向量

$\mathsf{(\lambda_1E-A)X=\begin{bmatrix}{1}&{1}&{-2}\\{0}&{1}&{-1}\\{0}&{0}&{0}\\\end{bmatrix}X=0},$ 有 $\mathsf{\begin{cases} x_1+x_2-2x_3=0\\ x_2=x_3\\ \end{cases}},$

令 $\mathsf{x_3=1}$ 解得 $\mathsf{\begin{cases}x_1=1\\x_2=1\\x_3=1\\\end{cases}}$ ，则对应特征值 $\mathsf{\lambda_1}$ 的特征向量 $\mathsf{\eta_1=(1,1,1)},$

对应A的特征子空间 $\mathsf{V_{\lambda_1}}$ 的一组基有 $\mathsf{V_{\lambda_1}=L(\epsilon_1+\epsilon_2+\epsilon_3)}.$

同理 ( $\mathsf{\lambda_2E-A)X=\begin{bmatrix}1&1&1\\0&0&0\\0&0&0\\\end{bmatrix}X=0},$ 有 $\mathsf{x_1+x_2+x_3=0}$ 解得 $\mathsf{x_1=-x_2-x_3},$

有两组解，即
$\mathsf{\begin{cases}x_2=1\\x_3=0\\\end{cases}\longrightarrow \eta_1=(-1,1,0);\begin{cases}x_2=0\\x_3=1\\\end{cases}\longrightarrow\eta_2=(-1,0,-1)}.$

对应A的特征子空间 $\mathsf{V_{\lambda_2}=L(-\epsilon_1+\epsilon_2,-\epsilon_1+\epsilon_3)}.$

对于特征值和特征向量请务必准确把握其定义.下面笔者从代数的角度出发，以一阶常系数微分方程为代表的例题进行剖析。

｜代数的层面——微分方程 $\mathsf{\frac{du}{dt}=Au}$

例题2 求微分方程组 $\mathsf{\begin{cases}\frac{du_1}{dt}=4u_1-5u_2\\\frac{du_2}{dt}=2u_1-3u_2\\\end{cases}}$ 的通解？

小贴士：这里有一个很突出的地方，那就是说微积分领域的求导和线性代数里的线性变换到底有什么联系？或者说两者表达的含义是不是等价的呢？其实，两者在抽象向量空间层面是等价的.不管是函数（functions）亦或是想来向量（vectors）,两者都具有向量特性.这里可以引出一个相当深刻的问题：一个函数的变换是线性的到底意味着什么? 对于向量而言，一个线性变换要满足在数域内保持加法封闭 $\mathsf{L(\vec v+\vec w)=L(\vec v)+L(\vec w)}$ 和数乘封闭 $\mathsf{L(c\vec v)=cL(\vec v)}$ 才是线性变换。同样的，对于求导 $\frac{df}{dx}$ 、多项式加减也要满足加法和乘法封闭，同样也是线性的.我们必须明白，矩阵是一种线性变换，求导也是一种线性变换，如 $\frac{df}{dx}=(x^3+x^2)'=\frac{d}{dx}(x^3)+\frac{d}{dx}(x^2);y=3x^2+4x+7$ 。因此，对于微分方程的求解我们可以将其转化为矩阵的形式，利用特征值和特征向量求出通解。

解：将 $u(t)=e^{\lambda t}x$ 代入原微分方程组，有

$\begin{cases}\lambda e^{\lambda t}C_1=4\lambda e^{\lambda t}C_1-5e^{\lambda t}C_2\\\lambda e^{\lambda t}C_2=2\lambda e^{\lambda t}C_2-3e^{\lambda t}C_2\end{cases}$

约分化简提取出对应放入矩阵形式如下：
$\begin{pmatrix}4&5\\2&-3\\\end{pmatrix}\begin{pmatrix}C_1\\C_2\\\end{pmatrix}=\lambda\begin{pmatrix}C_1\\C_2\\\end{pmatrix}$
因 $(A-\lambda I)X=0$ 且 $X\in N(A-\lambda I),$ 有
$det(A-\lambda I)=\begin{vmatrix}4-\lambda&-5\\2&-3-\lambda\\\end{vmatrix}=(\lambda +1)(\lambda-2)=0,$

解得 $\lambda_1=-1,\lambda_2=2.$ 将两个解分别代入 $(A-\lambda I)X=0,$ 解得特征向量
$\eta_1=\begin{pmatrix}1\\1\\\end{pmatrix},\eta_2=\begin{pmatrix}5\\2\\\end{pmatrix}$
则两个特解形式为
$u_1=e^{\lambda_1t}\eta_1=e^{-t}\begin{pmatrix}1\\1\\\end{pmatrix},u_2=e^{\lambda_2t}\eta_2=e^{2t}\begin{pmatrix}5\\2\\\end{pmatrix},$
故通解形式为 $U=C_1e^{\lambda_1t}\eta_1+C_2e^{\lambda_2t}\eta_2,C_1,C_2\in R$

下面笔者直接切入几何层面. 温馨提示，请先看完课程「线性代数的本质」中的「特征向量与特征值一节」。

｜几何的层面——向量的变换

从几何的层面出发，绝大多数向量在线性变换的过程中基本上离开了其张成(span)的空间，但是某些向量仍然“停留”在原空间内，矩阵（矩阵是线性变换的具象化表现形式）对这些特殊向量仅仅起到了“拉伸”或“压缩”，而其他向量在变换过程中偏离了张成的“直线”，我们称这些“不动”的向量为特征向量，每个特征向量其所属的值称为“特征值”。特征值的的作用在于衡量特征向量在线性变换中拉伸或者压缩的比例，若特征值出现负数，则说明线性变换使得线性空间出线性翻转，对于行列式值的正负同样适用。
在这里插入图片描述
配合笔者的笔记图片再加上前面一段笔者的阐述，可以清晰的看到 $\vec \alpha_1,$ 在线性变换A的过程中产生了偏离，故 $\vec \alpha_1$ 不是特征向量，而 $\vec \beta_1$ 在线性变换A的过程中仍然“停留”在了原空间原位置并且拉伸 $\lambda$ 倍，故 $\vec \beta$ 是特征向量。

再来来看两张图片：（截取自课程《线性代数的本质》特征值与特征向量一节）。在这里插入图片描述

从前后两张图片我们可以清晰的看到整个向量空间经过线性变换A后的变化，若存在特征向量，则可经由 $A\vec v=\lambda\vec v$ 求出。

对想继续深入了解的朋友来说，上面的分析仅仅是蜻蜓点水. 笔者在这里提出几个容易被大家忽略的问题：

特征值必须是数域K内的数；
特征向量必须是非零向量，因为零向量对要讨论的问题是没有作用的，但在研究特征子空间 $V_{\lambda_o}$ 是有要将其添加进去，子空间必须包含零向量；
特征向量与特征值的定义与基是没有关联的，只是在我们进行计算的时候要借用一组基，将线性变换A具体化为某个方阵. 最后归结为特征多项式 $f(\lambda)=\begin{vmatrix}\lambda E-A\\\end{vmatrix}$ 的根和齐次线性方程组 $(\lambda_i E-A)X=0$ 的基础解系的计算；
特征向量可以有无限多个，但特征值也许只有一个数值.比如将整个线性空间扩大K倍，则全体向量都为特征向量，而特征值仅为K。

对于根基不扎实的朋友即便日常练习中做了大量的题目将整个计算计算流程烂熟于心，但对于其中的一条或两条要点依然无所知。学习解题的套路确实很重要，但若是流于表面仅仅满足于计算，那更深层次的美妙大概率就难以领会了。

三、特征值的代数重数与几何重数

｜代数重数与几何重数的定义

定义设A是数域K上的n级矩阵， $\lambda_i$ 是A的某个特征值. 设 $det(A-\lambda I)=(\lambda_1-\lambda)^{n_1}\cdots(\lambda_k-\lambda)^{n_k},$ 其中 $\lambda_i\neq \lambda(i\neq j),$ 称 $n_i$ 为特征值 $\lambda_i$ 的代数重数，记作 $AM(\lambda_i)=n_i;$ 称 $dimN(A-\lambda_i I)$ 为特征值 $\lambda_i$ 的几何重数，记作 $GM(\lambda_i)=dim(A-\lambda_i I)$ 。

几何直观上， $\lambda_i$ 对应的特征子空间的维数为 $\lambda_i$ 的几何重数(geometric multiplicity)；
代数的抽象层面上， $\lambda_i$ 对应放入特征多项式的根的重数为 $\lambda_i$ 的代数重数（algebraic multiplicity)。

$\ast$ 注：该定义是笔者阅读了邱维声先生的书本讲义和清华线性代数公开课视频讲义结合而成，定义的力道算的上是入木三分了。

$例题 3$ 矩阵 $A=\begin{pmatrix}0&1\\0&0\\\end{pmatrix}$ 的特征值为 $\lambda_1=\lambda_2=0,$ 故 $\lt 2=AM$

$e . g$ $I=\begin{pmatrix}1&0\\0&1\\\end{pmatrix}$ 的特征值 $\lambda_1=\lambda_2=1,$ 故 $GM = A M = 2$

$e . g$ $A=\begin{pmatrix}6&-1\\1&4\\\end{pmatrix}$ 的特征值 $\lambda_1=\lambda_2,$ 故 $GM=1\lt 2=AM$

从以上三个例题可以推出以下命题：数域K上的n级矩阵的一个特征值 $\lambda_i,$ 其对应几何重数不大于对应的代数重数.

命题看起来很直观，但是对应的数学证明非常硬核.下面笔者给出两种证明方式，初级入门者可以适当略过.

｜命题的证明升华到定理

证明方法一：

设属于A的特征值 $\lambda_i$ 对应放入特征子空间 $w_1$ 的维数为r. 在 $w_1$ 中取一个基 $(\alpha_1,\alpha_2,\cdots,\alpha_r)$ 将其扩充为 $K^n$ 上的一个基 $(\alpha_1,\alpha_2,\cdots,\alpha_r,\beta_1,\cdots,\beta_{n-r}).$
令 $P=(\alpha_1,\alpha_2,\cdots,\alpha_r,\beta_1,\cdots,\beta_{n-r}),$ 故P是K上的n级可逆矩阵，并且有
$P^{-1}AP=P^{-1}\begin{pmatrix}A\alpha_1\\\vdots\\A\alpha_r\\A\beta_1\\\vdots\\A\beta_{n-r}\\\end{pmatrix}^T=\begin{pmatrix}\lambda_{1}P^{-1}\alpha_1\\\vdots\\\lambda_1P^{-1}\alpha_r\\P^{-1}A\beta_1\\\vdots\\P^{-1}A\beta_{n-r}\\\end{pmatrix}^{T}$

由于 $I=P^{-1}P=\begin{pmatrix}P^{-1}\alpha_1\\\vdots\\P^{-1}\alpha_r\\P^{-1}\beta_1\\\vdots\\P^{-1}\beta_{n-r}\\\end{pmatrix}^T,$
因此 $\epsilon_1=P^{-1}\alpha_1,\epsilon_2=P^{-1}\alpha_2,\cdots,\epsilon_r=P^{-1}\alpha_r,$
从而 $P^{-1}AP=\begin{pmatrix}\lambda_1\epsilon_1\\\vdots\\\lambda_1\epsilon_r\\P^{-1}A\beta_1\\\vdots\\P^{-1}A\beta_{n-r}\\\end{pmatrix}^T=\begin{pmatrix}\lambda_1 I_r&B\\0&C\\\end{pmatrix}.$ 「注意： $B$ 是 $r\times (n-r)$ 矩阵」

由于相似的矩阵具有相似的特征多项式，因此
$\mid \lambda I-A\mid=\begin{vmatrix}\lambda I_r-\lambda_1I_r&-B\\0&\lambda I_{n-r}-C\\\end{vmatrix}=\mid \lambda I_r-\lambda_1I_r \mid \mid\lambda I_{n-r}-C\mid=(\lambda-\lambda_1)^r\mid\lambda I_{n-r}-C\mid，$
从而 $\lambda_1$ 的代数重数大于或等于r，即 $\lambda_1$ 的代数重数大于或等于 $\lambda_1$ 的几何重数.

笔者出于博客的美观考虑将原来所有似基横向的写法全部改为行向量转置的类型，其原型类似于（1，2，3，4，5）

证明方法二：（在证明之前先引入两个引理）

引理一：相似矩具有相同的特征多项式
引理二：任意复方阵相似于一个上三角，且其对角元为矩阵的特征值.
关于引理二的证明如下：
当 $n = 1$ 时定理成立.
假设对 $n - 1$ 阶复矩阵结论成立. 对任意n阶复方阵A设有特征值 $\lambda_1$ 及相应的特征向量 $x_1\neq 0$ 将其扩充为 $C^n$ 的一组基 $(x_1,x_2,\cdots,x_n),$ 有 $A(x_1,\cdots,x_n)=(x_1,\cdots,x_n)\begin{pmatrix}{\lambda_1}&{*}\\{0}&{A_1}\\\end{pmatrix}$ 记 $P_1=(x_1,\cdots,x_n),$ 则有 $P^{-1}AP=\begin{pmatrix}{\lambda_1}&{*}\\{0}&{A_1}\\\end{pmatrix}$ 对n-1阶复方阵 $A_1,$ 由归纳假设可得，存在可逆矩阵Q使得 $Q^{-1}AQ=T_1$ 为上三角矩阵.

令 $P_2=\begin{pmatrix}1& \\ &Q\end{pmatrix},P=P_1P_2$ 可推出 $P^{-1}AP=P_2^{-1}P_1^{-1}AP_1P_2=P_2^{-1}\begin{pmatrix}\lambda_1&*\\0&A_1\\\end{pmatrix}P_2=\begin{pmatrix}\lambda_1&*\\0&T_1\end{pmatrix}=T$
「注意：T为上三角矩阵」

由引理可知 $det(A-\lambda I)=det(T-\lambda I)=(t_{11}-\lambda)\cdots(t_{nn}-\lambda)$
上三角矩阵T的对角元 $t_{11},\cdots,t_{nn}$ 为A的特征值.

命题： $GM(\lambda)\le AM(\lambda)$
证明：A相似于T，则特征值相同，且对任意特征值 $\lambda_i$ ，有 $GM_A(\lambda_i)=GM_T(\lambda_i)=dimN(T-\lambda_i I)=dimN(A-\lambda_i I)$
设A是上三角矩阵，即 $A=\begin{pmatrix}a_{11}&\cdots&*\\ &\ddots&*\\ & &a_{nn}\\\end{pmatrix}$
于是 $r(A-\lambda_i I)\ge n-AM(\lambda_i)$
故 $GM(\lambda_i)=n-r(A-\lambda_i I)\le AM(\lambda_i)$

命题经由证明升华成了定理，即：

复方阵A可对角化 $\longleftrightarrow$ 对任意特征值 $\lambda_i$ 有 $GM(\lambda_i)=AM(\lambda_i),\displaystyle\sum_{i=1}^{k}AM(\lambda_i)=n.$
若 $\forall i,GM(\lambda_i)=AM(\lambda_i),$ 则 $GM(\lambda_1)+GM(\lambda_2)+\cdots+GM(\lambda_k)=n,$ 故A有n个线性无关的特征向量.

$例题 4$ 矩阵 $A=\begin{pmatrix}0&0&0\\{-2}&{5}&{-2}\\{-2}&{4}&{-1}\\\end{pmatrix}$ 是否可对角化？若可，请求出特征向量矩阵S使得 $S^{-1}AS$ 为对角阵。

解: $det(A-\lambda I)=-(\lambda-1)^2(\lambda-3)=0$ 解得 $\lambda_1=\lambda_2=1,\lambda_3=3$

$A-\lambda_1 I=\begin{pmatrix}{0}&{0}&{0}\\{-2}&{4}&{-2}\\{-2}&{4}&{-2}\\\end{pmatrix}\rightarrow dimN(A-\lambda_1 I)=2$
于是 $AM(\lambda_1)=2=GM(\lambda_1),$ 同理 $GM(\lambda_3)=AM(\lambda_3)=1,$ 由以上结论得矩阵A可对角化。

对于 $\lambda_1=\lambda_2=1,$ 有 $A-I=\begin{pmatrix}0&0&0\\-2&4&-2\\-2&4&-2\\\end{pmatrix}\rightarrow\begin{pmatrix}1&-2&1\\0&0&0\\0&0&0\\\end{pmatrix}$
$(A - I) X = 0$ 的基础解系为 $x_1=\begin{pmatrix}2\\1\\0\\\end{pmatrix},x_2=\begin{pmatrix}-1\\0\\1\\\end{pmatrix}$
对于 $\lambda_3=3,$ 有 $A-3I=\begin{pmatrix}-2&-0&0\\-2&2&-2\\-2&-4&-4\\\end{pmatrix} \rightarrow \begin{pmatrix}1&0&0\\0&1&-1\\0&0&0\\\end{pmatrix}$
$(A - 3 I) X = 0$ 的基础解系为 $x_3=\begin{pmatrix}0\\1\\1\\\end{pmatrix}$
故 $S=(x_1,x_2,x_3)=\begin{pmatrix}2&-1&0\\1&0&1\\0&1&1\\\end{pmatrix}$ 且 $S^{-1}AS=\begin{pmatrix}1& & \\ &1& \\ & &3\\\end{pmatrix}$