《矩阵理论》大萌课程笔记 - 特殊矩阵

《矩阵理论》大萌课程笔记 - 特殊矩阵


总目录

章节名称与链接
线性空间与线性变换线性空间与子空间
有限维线性空间、基、维数
线性变换
内积空间
特征值与特征向量
特殊矩阵
矩阵分解
矩阵函数

声明

  本专栏博客用于记录上海交通大学研究生课程《矩阵理论》笔记,课程任教老师为邓大萌老师。所有内容均为博主个人的课堂笔记,包括课堂例题与证明。如有不妥、错误之处欢迎大家指正。



1 先验定理

1.1 零空间包含链条

对于 σ ∈ L ( V ) \sigma\in L(V) σL(V)有下列命题成立:

1) n u l l   σ 0 ⊆ n u l l   σ ⊆ n u l l   σ 2 ⊆ n u l l   σ 3 ⊆ . . . ⊆ n u l l   σ n ⊆ . . . null\ \sigma^0\sube null\ \sigma\subseteq null\ \sigma^2\sube null\ \sigma^3\sube...\sube null\ \sigma^n\sube... null σ0null σnull σ2null σ3...null σn...或者表示为 n u l l   σ k ⊆ n u l l   σ k + 1 , k ≥ 0 null\ \sigma^k\sube null\ \sigma^{k+1},k\ge0 null σknull σk+1,k0

2)若 n u l l   σ k = n u l l   σ k + 1 null\ \sigma^k=null\ \sigma^{k+1} null σk=null σk+1,则 n u l l   σ k + i = n u l l   σ k + i + 1 null\ \sigma^{k+i}=null\ \sigma^{k+i+1} null σk+i=null σk+i+1

3)若 d i m ( V ) = n dim(V)=n dim(V)=n,则一定有 n u l l   σ n = n u l l   σ n + 1 null\ \sigma^n=null\ \sigma^{n+1} null σn=null σn+1

证明:

1)设 α ∈ n u l l   σ k ⇒ σ k ( α ) = 0 ⇒ σ ( σ k ( α ) ) = σ ( 0 ) = σ k + 1 ( α ) = 0 ⇒ α ∈ σ k + 1 \alpha\in null\ \sigma^k\Rightarrow \sigma^k(\alpha)=0\Rightarrow \sigma(\sigma^k(\alpha))=\sigma(0)=\sigma^{k+1}(\alpha)=0\Rightarrow \alpha\in \sigma^{k+1} αnull σkσk(α)=0σ(σk(α))=σ(0)=σk+1(α)=0ασk+1

2)由(1)知, n u l l   σ k + i ⊆ n u l l   σ k + i + 1 null\ \sigma^{k+i}\sube null\ \sigma^{k+i+1} null σk+inull σk+i+1,只要再证 n u l l   σ k + i + 1 ⊆ n u l l   σ k + i null\ \sigma^{k+i+1}\sube null\ \sigma^{k+i} null σk+i+1null σk+i即可;

​ 设 α ∈ n u l l   σ k + i + 1 ⇒ σ k + i + 1 ( α ) = σ k + 1 ( σ i ( α ) ) = 0 ⇒ σ i ( α ) ∈ n u l l   σ k + 1 = n u l l   σ k \alpha\in null\ \sigma^{k+i+1}\Rightarrow \sigma^{k+i+1}(\alpha)=\sigma^{k+1}(\sigma^i(\alpha))=0\Rightarrow \sigma^i(\alpha)\in null\ \sigma^{k+1}=null\ \sigma^k αnull σk+i+1σk+i+1(α)=σk+1(σi(α))=0σi(α)null σk+1=null σk

⇒ σ k ( σ i ( α ) ) = 0 ⇒ σ k + i ( α ) = 0 ⇒ α ∈ σ k + i ⇒ σ k + i = σ k + i + 1 \Rightarrow \sigma^k(\sigma^i(\alpha))=0\Rightarrow\sigma^{k+i}(\alpha)=0\Rightarrow \alpha\in\sigma^{k+i}\Rightarrow\sigma^{k+i}=\sigma^{k+i+1} σk(σi(α))=0σk+i(α)=0ασk+iσk+i=σk+i+1

3)反证法:已知 d i m ( n u l l   σ i ) ≤ n , i ≥ 0 dim(null\ \sigma^i)\le n,i\ge 0 dim(null σi)n,i0

​ 若 n u l l   σ n ≠ n u l l   σ n + 1 null\ \sigma^n\not=null\ \sigma^{n+1} null σn=null σn+1,由(1)(2)可知:

n u l l   σ 0 ⊂ n u l l   σ ⊂ n u l l   σ 2 ⊂ n u l l   σ 3 ⊂ . . . ⊂ n u l l   σ n ⊂ n u l l   σ n + 1 null\ \sigma^0\sub null\ \sigma\sub null\ \sigma^2\sub null\ \sigma^3\sub...\sub null\ \sigma^n\sub null\ \sigma^{n+1} null σ0null σnull σ2null σ3...null σnnull σn+1

d i m ( n u l l   σ i ) < d i m ( n u l l   σ i + 1 ) , 0 ≤ i ≤ n dim(null\ \sigma^i)<dim(null\ \sigma^{i+1}),0\le i\le n dim(null σi)<dim(null σi+1),0in

⇒ d i m ( n u l l   σ n + 1 ) > n \Rightarrow dim(null\ \sigma^{n+1})>n dim(null σn+1)>n,矛盾,因此假设不成立。证毕。

1.2 幂零变换

定义 N ∈ L ( V ) , N j = 0 , j ∈ N + N\in L(V),N^j=0,j\in N^+ NL(V),Nj=0,jN+,称 N N N为幂零变换;

例: N : P 4 [ R ] → P 4 [ R ] , N ( f ) = f ′ N:P_4[R]\rightarrow P_4[R],N(f)=f' N:P4[R]P4[R],N(f)=f,判断 N N N是否为幂零变换

​ 解: ∀ f ∈ P 4 [ R ] , N 5 ( f ) = f ′ ′ ′ ′ ′ = 0 , N \forall f\in P_4[R],N^5(f)=f'''''=0,N fP4[R],N5(f)=f=0,N是幂零变换。

性质

  • 幂零变换的特征值有且只有0;

证明: N ( α ) = λ α ⇒ N j ( α ) = λ j α = 0 ⇒ λ j = 0 ⇒ λ = 0 N(\alpha)=\lambda\alpha\Rightarrow N^j(\alpha)=\lambda^j\alpha=0\Rightarrow \lambda^j=0\Rightarrow \lambda=0 N(α)=λαNj(α)=λjα=0λj=0λ=0

  • 对于幂零变换一定存在一组基,基下的矩阵是真上三角阵(对角线为0的上三角阵)
  • j = d i m   V j=dim\ V j=dim V时一定满足 N j = 0 N^j=0 Nj=0

1.3 广义特征向量/子空间

定义:

   T ∈ L ( V ) , α ∈ V , ( T − λ i I ) j ( α ) = 0 , j ∈ N + , 1 ≤ i ≤ k , λ 1 , λ 2 , . . . , λ k T\in L(V),\alpha\in V,(T-\lambda_iI)^j(\alpha)=0,j\in N^+,1\le i\le k,\lambda_1,\lambda_2,...,\lambda_k TL(V),αV,(TλiI)j(α)=0,jN+,1ik,λ1,λ2,...,λk T T T的不同特征值,则称 α \alpha α是广义特征向量,由所有满足条件的 α \alpha α构成的集合称为广义特征子空间,记作 G ( T , λ i ) G(T,\lambda_i) G(T,λi)

例(作业1): R 3 → R 3 , T ( x , y , z ) = ( y , 0 , 2 z ) R^3\rightarrow R^3, T(x,y,z)=(y,0,2z) R3R3,T(x,y,z)=(y,0,2z)

1)求 T T T的特征值与特征子空间

2)求广义特征子空间,判别 R 3 R^3 R3是否为广义特征子空间的直和。

解:(1) y = λ x , 0 = λ y , 2 z = λ z ⇒ λ 1 = 0 , λ 2 = 2 y=\lambda x,0=\lambda y,2z=\lambda z\Rightarrow \lambda_1=0,\lambda_2=2 y=λx,0=λy,2z=λzλ1=0,λ2=2

(2) ( T − 2 I ) α = ( y − 2 x , − 2 y , 0 ) (T-2I)\alpha=(y-2x,-2y,0) (T2I)α=(y2x,2y,0)

( T − 2 I ) 2 α = ( T − 2 I ) ( y − 2 x , − 2 y , 0 ) = ( 4 x − 4 y , − 4 y , 0 ) (T-2I)^2\alpha=(T-2I)(y-2x,-2y,0)=(4x-4y,-4y,0) (T2I)2α=(T2I)(y2x,2y,0)=(4x4y,4y,0)

( T − 2 I ) 3 α = ( T − 2 I ) ( 4 x − 4 y , − 4 y , 0 ) = ( 4 y − 8 x , − 8 y , 0 ) (T-2I)^3\alpha=(T-2I)(4x-4y,-4y,0)=(4y-8x,-8y,0) (T2I)3α=(T2I)(4x4y,4y,0)=(4y8x,8y,0)

G ( T , λ 2 ) = n u l l   ( T − 2 I ) 3 = S p a n ( ( 0 , 0 , 1 ) T ) G(T,\lambda_2)=null\ (T-2I)^3=Span((0,0,1)^T) G(T,λ2)=null (T2I)3=Span((0,0,1)T)

G ( T , λ 1 ) = n u l l   ( T − 0 I ) 3 = S p a n ( ( 1 , 0 , 0 ) T , ( 0 , 1 , 0 ) T ) G(T,\lambda_1)=null\ (T-0I)^3=Span((1,0,0)^T,(0,1,0)^T) G(T,λ1)=null (T0I)3=Span((1,0,0)T,(0,1,0)T)

性质:

  • G ( T , λ i ) = n u l l   ( T − λ i I ) d i m   V G(T,\lambda_i)=null\ (T-\lambda_iI)^{dim\ V} G(T,λi)=null (TλiI)dim V

证明:

∀ α ∈ G ( T , λ i ) ⇒ ( T − λ i ) j α = 0 , 其 中 j ≤ d i m   V , 不 妨 取 j = d i m   V ⇒ ( T − λ i ) d i m   V α = 0 ⇒ α ∈ n u l l ( T − λ i ) d i m   V \forall \alpha\in G(T,\lambda_i)\Rightarrow (T-\lambda_i)^j\alpha=0,其中j\le dim\ V,不妨取j=dim\ V\Rightarrow (T-\lambda_i)^{dim\ V}\alpha=0\Rightarrow \alpha\in null (T-\lambda_i)^{dim\ V} αG(T,λi)(Tλi)jα=0,jdim V,j=dim V(Tλi)dim Vα=0αnull(Tλi)dim V

⇒ G ( T , λ i ) ⊆ n u l l ( T − λ i ) d i m   V \Rightarrow G(T,\lambda_i)\sube null(T-\lambda_i)^{dim\ V} G(T,λi)null(Tλi)dim V

∀ α ∈ n u l l ( T − λ i ) d i m   V , ( T − λ i ) d i m   V α = 0 ⇒ α ∈ G ( T , λ i ) \forall \alpha\in null(T-\lambda_i)^{dim\ V},(T-\lambda_i)^{dim\ V}\alpha=0\Rightarrow \alpha\in G(T,\lambda_i) αnull(Tλi)dim V,(Tλi)dim Vα=0αG(T,λi)

⇒ n u l l ( T − λ i ) d i m   V ⊆ G ( T , λ i ) \Rightarrow null(T-\lambda_i)^{dim\ V}\sube G(T,\lambda_i) null(Tλi)dim VG(T,λi)

⇒ G ( T , λ i ) = n u l l ( T − λ i ) d i m   V \Rightarrow G(T,\lambda_i)=null(T-\lambda_i)^{dim\ V} G(T,λi)=null(Tλi)dim V

  • 不同特征值对应的广义特征向量线性无关;

证明:设 T ∈ V , d i m   V = n , λ 1 , λ 2 , . . . , λ k T\in V,dim\ V=n,\lambda_1,\lambda_2,...,\lambda_k TV,dim V=n,λ1,λ2,...,λk V V V k k k个特征值 α 1 , α 2 , . . . , α k \alpha_1,\alpha_2,...,\alpha_k α1,α2,...,αk是对应的广义特征向量

设存在一组系数使得 x 1 α 1 + x 2 α 2 + . . . + x k α k = 0 x_1\alpha_1+x_2\alpha_2+...+x_k\alpha_k=0 x1α1+x2α2+...+xkαk=0

⇒ σ ( x 1 α 1 + x 2 α 2 + . . . + x k α k ) = 0 , σ ∈ L ( V ) \Rightarrow \sigma(x_1\alpha_1+x_2\alpha_2+...+x_k\alpha_k)=0,\sigma\in L(V) σ(x1α1+x2α2+...+xkαk)=0,σL(V)

设存在最大 m m m使得 ( T − λ 1 I ) m = ω ≠ 0 ⇒ ( T − λ 1 I ) m + 1 = ( T − λ 1 I ) ω = 0 ⇒ T ( ω ) = λ 1 ω (T-\lambda_1I)^m=\omega\not=0\Rightarrow (T-\lambda_1I)^{m+1}=(T-\lambda_1I)\omega=0\Rightarrow T(\omega)=\lambda_1\omega (Tλ1I)m=ω=0(Tλ1I)m+1=(Tλ1I)ω=0T(ω)=λ1ω

令线性变换 σ = ( T − λ 1 I ) m ( T − λ 2 I ) n . . . ( T − λ k I ) n \sigma=(T-\lambda_1I)^m(T-\lambda_2I)^n...(T-\lambda_kI)^n σ=(Tλ1I)m(Tλ2I)n...(TλkI)n

⇒ σ ( x i α i ) = x i ( T − λ 1 I ) m ( T − λ 2 I ) n . . . ( T − λ k I ) n α i = 0 , i ≠ 1 \Rightarrow \sigma(x_i\alpha_i)=x_i(T-\lambda_1I)^m(T-\lambda_2I)^n...(T-\lambda_kI)^n\alpha_i=0,i\not=1 σ(xiαi)=xi(Tλ1I)m(Tλ2I)n...(TλkI)nαi=0,i=1

⇒ σ ( x 1 α 1 + x 2 α 2 + . . . + x k α k ) = 0    ⟺    σ ( x 1 α 1 ) = 0 \Rightarrow \sigma(x_1\alpha_1+x_2\alpha_2+...+x_k\alpha_k)=0\iff\sigma(x_1\alpha_1)=0 σ(x1α1+x2α2+...+xkαk)=0σ(x1α1)=0

⇒ σ ( x 1 α 1 ) = x 1 σ ( α 1 ) = x 1 ( T − λ 1 I ) m ( T − λ 2 I ) n . . . ( T − λ k I ) n α 1 = x 1 [ ( T − λ 2 I ) n . . . ( T − λ k I ) n ] ( T − λ 1 I ) m α 1 \Rightarrow \sigma(x_1\alpha_1)=x_1\sigma(\alpha_1)=x_1(T-\lambda_1I)^m(T-\lambda_2I)^n...(T-\lambda_kI)^n\alpha_1=x_1[(T-\lambda_2I)^n...(T-\lambda_kI)^n](T-\lambda_1I)^m\alpha_1 σ(x1α1)=x1σ(α1)=x1(Tλ1I)m(Tλ2I)n...(TλkI)nα1=x1[(Tλ2I)n...(TλkI)n](Tλ1I)mα1

= x 1 ( T − λ 2 I ) n . . . ( T − λ k I ) n ω =x_1(T-\lambda_2I)^n...(T-\lambda_kI)^n\omega =x1(Tλ2I)n...(TλkI)nω

其中 ( T − λ k I ) ω = T ( ω ) − λ k ω = ( λ 1 − λ k ) ω ⇒ ( T − λ k I ) n ω = ( λ 1 − λ k ) n ω (T-\lambda_kI)\omega=T(\omega)-\lambda_k\omega=(\lambda_1-\lambda_k)\omega\Rightarrow (T-\lambda_kI)^n\omega=(\lambda_1-\lambda_k)^n\omega (TλkI)ω=T(ω)λkω=(λ1λk)ω(TλkI)nω=(λ1λk)nω

⇒ ( T − λ 2 I ) n . . . ( T − λ k I ) n ω = ( λ 1 − λ 2 ) n ( λ 1 − λ 3 ) n . . . ( λ 1 − λ k ) n ω ≠ 0 \Rightarrow (T-\lambda_2I)^n...(T-\lambda_kI)^n\omega=(\lambda_1-\lambda_2)^n(\lambda_1-\lambda_3)^n...(\lambda_1-\lambda_k)^n\omega\not=0 (Tλ2I)n...(TλkI)nω=(λ1λ2)n(λ1λ3)n...(λ1λk)nω=0

⇒ σ ( x 1 α 1 ) = x 1 ( T − λ 2 I ) n . . . ( T − λ k I ) n ω = 0 ⇒ x 1 = 0 \Rightarrow \sigma(x_1\alpha_1)=x_1(T-\lambda_2I)^n...(T-\lambda_kI)^n\omega=0\Rightarrow x_1=0 σ(x1α1)=x1(Tλ2I)n...(TλkI)nω=0x1=0

同理 x 2 = . . . = x k = 0 x_2=...=x_k=0 x2=...=xk=0

⇒ α 1 , α 2 , . . . , α k \Rightarrow \alpha_1,\alpha_2,...,\alpha_k α1,α2,...,αk线性无关,证毕。

注: x i ( T − λ 1 I ) m ( T − λ 2 I ) n . . . ( T − λ k I ) n α i x_i(T-\lambda_1I)^m(T-\lambda_2I)^n...(T-\lambda_kI)^n\alpha_i xi(Tλ1I)m(Tλ2I)n...(TλkI)nαi由于交换后的展开形式依旧不变,还是同一个线性变换,因此在这里可以交换,一般情况下线性变换相乘不能交换。

  • G ( T , λ 1 ) ⊕ G ( T , λ 2 ) ⊕ . . . ⊕ G ( T , λ k ) = V G(T,\lambda_1)\oplus G(T,\lambda_2)\oplus...\oplus G(T,\lambda_k)=V G(T,λ1)G(T,λ2)...G(T,λk)=V

证明:先证 T ∈ L ( V ) , d i m   V = n , V = n u l l   T n ⊕ r a n g e   T n T\in L(V),dim\ V=n,V=null\ T^n\oplus range\ T^n TL(V),dim V=n,V=null Tnrange Tn

α ∈ n u l l   T n ∩ r a n g e   T n \alpha\in null\ T^n\cap range\ T^n αnull Tnrange Tn

⇒ T n ( α ) = 0 \Rightarrow T^n(\alpha)=0 Tn(α)=0

∃ β , T n ( β ) = α \exist \beta,T^n(\beta)=\alpha β,Tn(β)=α

⇒ T n ( T n ( β ) ) = T 2 n ( β ) = 0 ⇒ β ∈ n u l l   T 2 n \Rightarrow T^n(T^n(\beta))=T^{2n}(\beta)=0\Rightarrow \beta\in null\ T^{2n} Tn(Tn(β))=T2n(β)=0βnull T2n

又根据零空间包含链 n u l l   T 2 n = n u l l   T n ⇒ β ∈ n u l l   T n ⇒ T n ( β ) = 0 ⇒ α = 0 null\ T^{2n}=null\ T^n\Rightarrow \beta\in null\ T^n\Rightarrow T^n(\beta)=0\Rightarrow \alpha=0 null T2n=null Tnβnull TnTn(β)=0α=0,先验定理证毕。

⇒ V = n u l l   ( T − λ 1 I ) n ⊕ r a n g e   ( T − λ 1 I ) n = G ( T , λ 1 ) ⊕ r a n g e   ( T − λ 1 I ) n \Rightarrow V=null\ (T-\lambda_1I)^n \oplus range\ (T-\lambda_1I)^n=G(T,\lambda_1)\oplus range\ (T-\lambda_1I)^n V=null (Tλ1I)nrange (Tλ1I)n=G(T,λ1)range (Tλ1I)n

然后再用数学归纳法证明 r a n g e   ( T − λ 1 I ) n = G ( T , λ 2 ) ⊕ . . . ⊕ G ( T , λ k ) range\ (T-\lambda_1I)^n=G(T,\lambda_2)\oplus...\oplus G(T,\lambda_k) range (Tλ1I)n=G(T,λ2)...G(T,λk)

  • G ( T , λ i ) G(T,\lambda_i) G(T,λi) T T T的不变子空间

证明: G ( T , λ i ) = n u l l   ( T − λ i I ) d i m   V , ∀ α ∈ G ( T , λ i ) , ( T − λ i I ) d i m   V α = 0 G(T,\lambda_i)=null\ (T-\lambda_iI)^{dim\ V},\forall\alpha\in G(T,\lambda_i),(T-\lambda_iI)^{dim\ V}\alpha=0 G(T,λi)=null (TλiI)dim V,αG(T,λi),(TλiI)dim Vα=0

⇒ ( T − λ i I ) d i m   V ( T ( α ) ) = T ( T − λ i I ) d i m   V α = T ( 0 ) = 0 ⇒ T ( α ) ∈ ( T − λ i I ) d i m   V = G ( T , λ i ) \Rightarrow (T-\lambda_iI)^{dim\ V}(T(\alpha))=T(T-\lambda_iI)^{dim\ V}\alpha=T(0)=0\Rightarrow T(\alpha)\in (T-\lambda_iI)^{dim\ V}=G(T,\lambda_i) (TλiI)dim V(T(α))=T(TλiI)dim Vα=T(0)=0T(α)(TλiI)dim V=G(T,λi),证毕。

  • ( T − λ i I ) ∣ G ( T , λ i ) (T-\lambda_iI)|_{G(T,\lambda_i)} (TλiI)G(T,λi)是幂零变换

证明: ∀ α ∈ G ( T , λ i ) = ( T − λ i I ) d i m   V , ( T − λ i I ) d i m   V α = 0 ⇒ ( T − λ i I ) d i m   V = 0 ⇒ ( T − λ i I ) \forall\alpha\in G(T,\lambda_i)=(T-\lambda_iI)^{dim\ V},(T-\lambda_iI)^{dim\ V}\alpha=0\Rightarrow(T-\lambda_iI)^{dim\ V}=0\Rightarrow (T-\lambda_iI) αG(T,λi)=(TλiI)dim V,(TλiI)dim Vα=0(TλiI)dim V=0(TλiI)是幂零变换。

2 约旦标准型

2.1 分块上三角基

定义: T ∈ L ( V ) , V 中 有 一 组 基 α 1 , α 2 , . . . , α n 使 得 T ( α 1 , α 2 , . . . , α n ) = ( α 1 , α 2 , . . . , α n ) ⋅ [ A 1 A 2 . . . A k ] , 其 中 A i = [ λ i ∗ ∗ ∗ 0 λ i ∗ ∗ 0 0 . . . ∗ 0 0 0 λ i ] T\in L(V),V中有一组基\alpha_1,\alpha_2,...,\alpha_n使得T(\alpha_1,\alpha_2,...,\alpha_n)=(\alpha_1,\alpha_2,...,\alpha_n)\cdot\begin{bmatrix}A_1& & &\\& A_2& &\\& & ...&\\& & & A_k\end{bmatrix},其中A_i=\begin{bmatrix}\lambda_i&*&*&*\\0&\lambda_i& * &*\\0& 0 & ...&*\\0&0 & 0& \lambda_i\end{bmatrix} TL(V)Vα1,α2,...,αn使T(α1,α2,...,αn)=(α1,α2,...,αn)A1A2...Ak,Ai=λi000λi00...0λi

例:证明该组基的存在性;

证明: T ∣ G ( T , λ i ) = ( T − λ i I ) ∣ G ( T , λ i ) + λ i I ∣ G ( T , λ i ) T|_{G(T,\lambda_i)}=(T-\lambda_iI)|_{G(T,\lambda_i)}+\lambda_iI|_{G(T,\lambda_i)} TG(T,λi)=(TλiI)G(T,λi)+λiIG(T,λi)

已知 ( T − λ i I ) ∣ G ( T , λ i ) (T-\lambda_iI)|_{G(T,\lambda_i)} (TλiI)G(T,λi)是幂零变换,存在一组基使得基下的矩阵为 [ 0 ∗ ∗ ∗ 0 0 ∗ ∗ 0 0 . . . ∗ 0 0 0 0 ] \begin{bmatrix}0&*&*&*\\0&0& * &*\\0& 0 & ...&*\\0&0 & 0& 0\end{bmatrix} 0000000...00, λ i I ∣ G ( T , λ i ) \lambda_iI|_{G(T,\lambda_i)} λiIG(T,λi)在这组基下的矩阵为 [ λ i 0 0 0 0 λ i 0 0 0 0 . . . 0 0 0 0 λ i ] \begin{bmatrix}\lambda_i&0&0&0\\0&\lambda_i& 0 &0\\0& 0 & ...&0\\0&0 & 0& \lambda_i\end{bmatrix} λi0000λi0000...0000λi,因此相加后的矩阵为上三角阵

2.2 约旦基

定义: T ∈ L ( V ) , V 中 有 一 组 基 α 1 , α 2 , . . . , α n 使 得 T ( α 1 , α 2 , . . . , α n ) = ( α 1 , α 2 , . . . , α n ) ⋅ [ A 1 A 2 . . . A k ] , 其 中 A i = [ λ i 1 0 0 0 λ i 1 0 0 0 . . . 1 0 0 0 λ i ] T\in L(V),V中有一组基\alpha_1,\alpha_2,...,\alpha_n使得T(\alpha_1,\alpha_2,...,\alpha_n)=(\alpha_1,\alpha_2,...,\alpha_n)\cdot\begin{bmatrix}A_1& & &\\& A_2& &\\& & ...&\\& & & A_k\end{bmatrix},其中A_i=\begin{bmatrix}\lambda_i&1&0&0\\0&\lambda_i& 1 &0\\0& 0 & ...&1\\0&0 & 0& \lambda_i\end{bmatrix} TL(V)Vα1,α2,...,αn使T(α1,α2,...,αn)=(α1,α2,...,αn)A1A2...Ak,Ai=λi0001λi0001...0001λi

性质:

  • 同一特征值可能对应多个上三角块,块的数目等于该特征值对应的特征向量的个数(即几何重数)

例:三维线性变换在一组基下的矩阵是约旦标准型,求标准型的形式,描述求解步骤

1.先算三维线性变换的特征值,确定约旦矩阵的对角线

2.再计算每个特征值对应的特征向量数目,确定矩阵块数,从而确定次对角线;

注意:当线性变换的阶数过高时,该方法不适用,原因是即使得知块的数目也难以推断次对角线分布。

2.3 Hamilton-Cayley定理

定义:

   T ∈ L ( V ) , λ 1 , λ 2 , . . . , λ k T\in L(V),\lambda_1,\lambda_2,...,\lambda_k TL(V),λ1,λ2,...,λk是不同特征值,则有 ( T − λ 1 I ) n 1 ( T − λ 2 I ) n 2 . . . ( T − λ k I ) n k = 0 变 换 (T-\lambda_1I)^{n_1}(T-\lambda_2I)^{n_2}...(T-\lambda_kI)^{n_k}=0变换 (Tλ1I)n1(Tλ2I)n2...(TλkI)nk=0,其中 n 1 , n 2 , . . . , n k n_1,n_2,...,n_k n1,n2,...,nk T T T的代数重数;

证明:设 ∀ α ∈ V , α = x 1 α 1 + x 2 α 2 + . . . + x k α k , α i ∈ G ( T , λ i ) = n u l l   ( T − λ i I ) n i \forall \alpha\in V,\alpha=x_1\alpha_1+x_2\alpha_2+...+x_k\alpha_k,\alpha_i\in G(T,\lambda_i)=null\ (T-\lambda_iI)^{n_i} αV,α=x1α1+x2α2+...+xkαk,αiG(T,λi)=null (TλiI)ni

⇒ ( T − λ 1 I ) n 1 ( T − λ 2 I ) n 2 . . . ( T − λ k I ) n k α = 0 \Rightarrow (T-\lambda_1I)^{n_1}(T-\lambda_2I)^{n_2}...(T-\lambda_kI)^{n_k}\alpha=0 (Tλ1I)n1(Tλ2I)n2...(TλkI)nkα=0,证毕。

矩阵版本证明:

假设只考虑代数重数均为0的情况,设特征多项式为 f A ( λ ) = ( λ − λ 1 ) ( λ − λ 2 ) . . . ( λ − λ n ) f_A(\lambda)=(\lambda-\lambda_1)(\lambda-\lambda_2)...(\lambda-\lambda_n) fA(λ)=(λλ1)(λλ2)...(λλn)

已知任意一个矩阵都可以相似一个上三角阵,设 A ∼ B , B = 上 三 角 阵 A\sim B,B=上三角阵 AB,B=

⇒ P − 1 A P = B ⇒ P − 1 f ( A ) P = f ( B ) ⇒ P − 1 f A ( A ) P = f A ( B ) = ( B − λ 1 ) ( B − λ 2 ) . . . ( B − λ n ) = 0 \Rightarrow P^{-1}AP=B\Rightarrow P^{-1}f(A)P=f(B)\Rightarrow P^{-1}f_A(A)P=f_A(B)=(B-\lambda_1)(B-\lambda_2)...(B-\lambda_n)=0 P1AP=BP1f(A)P=f(B)P1fA(A)P=fA(B)=(Bλ1)(Bλ2)...(Bλn)=0,证毕

其他重要概念:

零化多项式: 对 于 A , 存 在 多 项 式 f ( A ) 使 得 f ( A ) = 0 对于A,存在多项式f(A)使得f(A)=0 Af(A)使f(A)=0则称 f ( λ ) f(\lambda) f(λ)是零化多项式

最小多项式: A A A的零化多项式中次数最低最高次系数为1的多项式称之为最小多项式,记作 m A ( λ ) m_A(\lambda) mA(λ)

最小多项式性质:

  • 最小多项式唯一

证明:假设 A A A存在两个最小多项式 m A ( λ ) , m B ( λ ) m_A(\lambda),m_B(\lambda) mA(λ),mB(λ)

可知 m A ( λ ) , m B ( λ ) m_A(\lambda),m_B(\lambda) mA(λ),mB(λ)的最高项系数均为1且它们是满足 f ( A ) = 0 f(A)=0 f(A)=0的最小次数多项式

m A ( λ ) , m B ( λ ) m_A(\lambda),m_B(\lambda) mA(λ),mB(λ)最高项次数为 n n n

⇒ g ( λ ) = m A ( λ ) − m B ( λ ) = 0 \Rightarrow g(\lambda)=m_A(\lambda)-m_B(\lambda)=0 g(λ)=mA(λ)mB(λ)=0最高项次数为 n − 1 n-1 n1,且 g ( λ ) g(\lambda) g(λ)也满足 f ( A ) = 0 f(A)=0 f(A)=0的形式 ⇒ g ( λ ) \Rightarrow g(\lambda) g(λ)是最小多项式,与题设矛盾!

因此假设不成立,最小多项式唯一。

  • f ( λ ) f(\lambda) f(λ) A A A的零化多项式,则 m A ( λ ) m_A(\lambda) mA(λ) f ( λ ) f(\lambda) f(λ)的因子
  • A A A的任意特征值一定是 m A ( λ ) m_A(\lambda) mA(λ)的根
  • 两个矩阵相似,则他们的最小多项式相等,即 P − 1 A P = B ⇒ m A ( λ ) = m B ( λ ) P^{-1}AP=B\Rightarrow m_A(\lambda)=m_B(\lambda) P1AP=BmA(λ)=mB(λ)

证明:要证相等就是证可以相互整除

已知 P − 1 A P = B ⇒ A = P B P − 1 ⇒ m A ( A ) = P m A ( B ) P − 1 = 0 ⇒ m A ( B ) = 0 ⇒ m A ( B ) P^{-1}AP=B\Rightarrow A=PBP^{-1}\Rightarrow m_A(A)=Pm_A(B)P^{-1}=0\Rightarrow m_A(B)=0\Rightarrow m_A(B) P1AP=BA=PBP1mA(A)=PmA(B)P1=0mA(B)=0mA(B) B B B的零化多项式

又因为 B B B的最小多项式是其零化多项式的因子,因此 m A ( λ ) m_A(\lambda) mA(λ)可以整除 m B ( λ ) m_B(\lambda) mB(λ)

同理, m B ( λ ) m_B(\lambda) mB(λ)可以整除 m A ( λ ) m_A(\lambda) mA(λ)

∴ m A ( λ ) = m B ( λ ) \therefore m_A(\lambda)=m_B(\lambda) mA(λ)=mB(λ)

  • A = [ A 1 A 2 . . . A s ] A=\begin{bmatrix}A_1&&&\\&A_2&&\\&&...&\\&&&A_s\end{bmatrix} A=A1A2...As,则 m A ( λ ) 是 m A i ( λ ) m_A(\lambda)是m_{A_i}(\lambda) mA(λ)mAi(λ)的最小公倍数, 1 ≤ i ≤ s 1\le i\le s 1is

例1:求约旦标准型 A = [ 1 1 1 1 2 1 2 2 ] A=\begin{bmatrix}1&1&&&&\\&1&&&&\\&&1&&&\\&&&2&1&\\&&&&2&\\&&&&&2\end{bmatrix} A=11112122的最小多项式;

​ 解:该约旦标准型由四个约旦块组成:

​ 第一个约旦块的最小多项式为 m 1 ( λ ) = ( λ − 1 ) 2 m_1(\lambda)=(\lambda-1)^2 m1(λ)=(λ1)2

​ 第二个约旦块的最小多项式为 m 2 ( λ ) = λ − 1 m_2(\lambda)=\lambda-1 m2(λ)=λ1

​ 第三个约旦块的最小多项式为 m 3 ( λ ) = ( λ − 2 ) 2 m_3(\lambda)=(\lambda-2)^2 m3(λ)=(λ2)2

​ 第四个约旦块的最小多项式为 m 4 ( λ ) = λ − 2 m_4(\lambda)=\lambda-2 m4(λ)=λ2

​ 所以 A A A的最小多项式是四个约旦块最小多项式的最小公倍数,即 m A ( λ ) = ( λ − 1 ) 2 ( λ − 2 ) 2 m_A(\lambda)=(\lambda-1)^2(\lambda-2)^2 mA(λ)=(λ1)2(λ2)2

例2:假设一个约旦标准型的零化多项式(或特征多项式)与最小多项式相等( f ( x ) = m A ( x ) f(x)=m_A(x) f(x)=mA(x)),则约旦标准型具有什么特点?

结论 f ( x ) = m A ( x )    ⟺    A f(x)=m_A(x)\iff A f(x)=mA(x)A的每个特征值对应一个约旦块

  • A A A可对角化    ⟺    m A ( λ ) \iff m_A(\lambda) mA(λ)没有重根**(复数域)**

证明:

1) A A A可对角化 ⇒ m A ( λ ) \Rightarrow m_A(\lambda) mA(λ)没有重根

​ 已知 A A A可对角化 ⇒ P − 1 A P = B , B \Rightarrow P^{-1}AP=B,B P1AP=B,B是对角矩阵

⇒ m A ( λ ) = m B ( λ ) = ( λ − λ 1 ) ( λ − λ 2 ) . . . ( λ − λ k ) , λ 1 , λ 2 , . . . , λ k \Rightarrow m_A(\lambda)=m_B(\lambda)=(\lambda-\lambda_1)(\lambda-\lambda_2)...(\lambda-\lambda_k),\lambda_1,\lambda_2,...,\lambda_k mA(λ)=mB(λ)=(λλ1)(λλ2)...(λλk),λ1,λ2,...,λk A A A的不同特征值,证毕

2) A A A可对角化 ⇐ m A ( λ ) \Leftarrow m_A(\lambda) mA(λ)没有重根

​ 已知 m A ( λ ) = ( λ − λ 1 ) ( λ − λ 2 ) . . . ( λ − λ k ) , λ 1 , λ 2 , . . . , λ k m_A(\lambda)=(\lambda-\lambda_1)(\lambda-\lambda_2)...(\lambda-\lambda_k),\lambda_1,\lambda_2,...,\lambda_k mA(λ)=(λλ1)(λλ2)...(λλk),λ1,λ2,...,λk A A A的不同特征值,只要证明 ∀ λ \forall \lambda λ的代数重数等于几何重数,A就可以对角化

λ i \lambda_i λi代数重数设为 n i n_i ni

λ i \lambda_i λi的几何重数设为 n − r ( A − λ i I ) n-r(A-\lambda_iI) nr(AλiI)

​ 已知代几何重数小等于代数重数: Σ i = 1 k n k = n ≤ Σ i = 1 k ( n − r ( A − λ i I ) ) = k n − Σ i = 1 k r ( A − λ i I ) ⇒ Σ i = 1 k r ( A − λ i I ) ≥ ( k − 1 ) n \Sigma_{i=1}^{k}n_k=n\le\Sigma_{i=1}^k(n-r(A-\lambda_iI))=kn-\Sigma_{i=1}^kr(A-\lambda_iI)\Rightarrow\Sigma_{i=1}^kr(A-\lambda_iI)\ge(k-1)n Σi=1knk=nΣi=1k(nr(AλiI))=knΣi=1kr(AλiI)Σi=1kr(AλiI)(k1)n

​ 又由 r ( A B ) ≥ r ( A ) + r ( B ) − n ⇒ r ( m A ( A ) ) = r ( ( A − λ 1 I ) ( A − λ 2 I ) . . . ( A − λ k I ) ) = 0 ≥ Σ i = 1 k ( A − λ i I ) − ( k − 1 ) n r(AB)\ge r(A)+r(B)-n\Rightarrow r(m_A(A))=r((A-\lambda_1I)(A-\lambda_2I)...(A-\lambda_kI))=0\ge \Sigma_{i=1}^k(A-\lambda_iI)-(k-1)n r(AB)r(A)+r(B)nr(mA(A))=r((Aλ1I)(Aλ2I)...(AλkI))=0Σi=1k(AλiI)(k1)n

⇒ Σ i = 1 k ( A − λ i I ) ≤ ( k − 1 ) n \Rightarrow \Sigma_{i=1}^k(A-\lambda_iI)\le (k-1)n Σi=1k(AλiI)(k1)n

⇒ Σ i = 1 k ( A − λ i I ) = ( k − 1 ) n \Rightarrow \Sigma_{i=1}^k(A-\lambda_iI)=(k-1)n Σi=1k(AλiI)=(k1)n

例3:已知 A 2 = A A^2=A A2=A(幂等矩阵),判断 A A A是否可以对角化

​ 解:由 A 2 = A ⇒ A 2 − A = 0 ⇒ 零 化 多 项 式 为 f ( λ ) = λ 2 − λ , 最 小 多 项 式 m A ( λ ) = f ( λ ) 没 有 重 根 ⇒ A 可 以 对 角 化 A^2=A\Rightarrow A^2-A=0\Rightarrow 零化多项式为 f(\lambda)=\lambda^2-\lambda,最小多项式m_A(\lambda)=f(\lambda)没有重根\Rightarrow A可以对角化 A2=AA2A=0f(λ)=λ2λ,mA(λ)=f(λ)A

例4:已知 A n = I A^n=I An=I,判断 A A A是都可以对角化

​ 解:由 A n − I = 0 ⇒ 零 化 多 项 式 为 f ( λ ) = λ n − 1 A^n-I=0\Rightarrow 零化多项式为f(\lambda)=\lambda^n-1 AnI=0f(λ)=λn1 n n n个复根,所以 A A A可以对角化

3 酉矩阵与正规矩阵

酉矩阵:若复数域内一个可逆方阵 U U U满足 U ∗ = U − 1 U^*=U^{-1} U=U1,即 U U ∗ = U ∗ U = I UU^*=U^*U=I UU=UU=I,则称 U U U是酉矩阵(实数域对应正交矩阵)

酉相似:若 U U U是酉矩阵,矩阵 A , B A,B A,B满足 U ∗ A U = B U^*AU=B UAU=B,则称 A , B A,B A,B酉相似

正规矩阵:若复数域一个方阵 A A A满足 A A ∗ = A ∗ A AA^*=A^*A AA=AA,则称 A A A是正规矩阵。已知酉矩阵也是一种特殊的正规矩阵

正规矩阵性质

  • 与正规矩阵酉相似的矩阵依然是正规矩阵

证明:设 U U U是酉矩阵, A A A是正规矩阵, A , B A,B A,B酉相似

​ 则: U ∗ A U = B ⇒ ( U ∗ A U ) ∗ = U ∗ A ∗ U = B ∗ U^*AU=B\Rightarrow (U^*AU)^*=U^*A^*U=B^* UAU=B(UAU)=UAU=B

⇒ B B ∗ = ( U ∗ A U ) ( U ∗ A ∗ U ) = U ∗ A A ∗ U \Rightarrow BB^*=(U^*AU)(U^*A^*U)=U^*AA^*U BB=(UAU)(UAU)=UAAU

B ∗ B = ( U ∗ A ∗ U ) ( U ∗ A U ) = U ∗ A ∗ A U B^*B=(U^*A^*U)(U^*AU)=U^*A^*AU BB=(UAU)(UAU)=UAAU

​ 又 A ∗ A = A A ∗ ⇒ B ∗ B = B B ∗ ⇒ B A^*A=AA^*\Rightarrow B^*B=BB^*\Rightarrow B AA=AABB=BBB是正规矩阵,证毕。

  • 若矩阵 A A A是正规矩阵,同时 A A A是上三角矩阵,则 A A A一定是一个对角阵

证明:暴力证明法:

设正规矩阵 A = [ a 11 a 12 . . . a 1 n a 22 . . . a 2 n . . . . . . a n n ] , A ∗ = [ a 11 a 12 a 22 . . . . . . . . . a 1 n a 2 n . . . a n n ] A=\begin{bmatrix}a_{11}&a_{12}&...&a_{1n}\\&a_{22}&...&a_{2n}\\&&...&...\\&&&a_{nn}\end{bmatrix},A^*=\begin{bmatrix}a_{11}&&&\\a_{12}&a_{22}&&\\...&...&...\\a_{1n}&a_{2n}&...&a_{nn}\end{bmatrix} A=a11a12a22.........a1na2n...ann,A=a11a12...a1na22...a2n......ann

⇒ A A ∗ = A ∗ A ⇒ 非 对 角 元 素 为 0 \Rightarrow AA^*=A^*A\Rightarrow非对角元素为0 AA=AA0,证毕。

  • A A A是正规矩阵    ⟺    \iff A A A可以酉对角化

证明:

1) A A A是正规矩阵 ⇐ \Leftarrow A A A可以酉对角化

​ 设 U U U是酉矩阵, U ∗ A U = B , B U^*AU=B,B UAU=B,B是对角阵,其中 B ∗ B = B B ∗ ⇒ B B^*B=BB^*\Rightarrow B BB=BBB是正规矩阵

​ 根据性质1,与正规矩阵相似的矩阵也是正规矩阵,因此 A A A是正规矩阵

2) A A A是正规矩阵 ⇒ \Rightarrow A A A可以酉对角化

​ 设 U U U是酉矩阵, A , B A,B A,B酉相似,即 U ∗ A U = B U^*AU=B UAU=B

​ 根据性质1, B B B也是正规矩阵;

​ 又根据Schur定理,任意方阵可以酉相似到一个上三角阵 B B B;

​ 根据性质2, B B B是一个对角阵,证毕

4 Hermite矩阵

定义:若复数域内一方阵 A A A满足 A ∗ = A A^*=A A=A,则称 A A A是Hermite矩阵(对应实数域的对称阵)

性质:

  • Hermite阵是正规矩阵,可以酉对角化。
  • Hermite阵的特征值一定是实数

证明:设 A A A是一个Hermite阵,可知 A A A可以酉对角化

​ 即: U ∗ A U = [ λ 1 λ 2 . . . λ n ] , U ∗ A ∗ U = [ λ ‾ 1 λ ‾ 2 . . . λ ‾ n ] U^*AU=\begin{bmatrix}\lambda_1&&&\\&\lambda_2&&\\&&...&\\&&&\lambda_n\end{bmatrix},U^*A^*U=\begin{bmatrix}\overline\lambda_1&&&\\&\overline\lambda_2&&\\&&...&\\&&&\overline\lambda_n\end{bmatrix} UAU=λ1λ2...λn,UAU=λ1λ2...λn

​ 又因为 A ∗ = A ⇒ [ λ 1 λ 2 . . . λ n ] = [ λ ‾ 1 λ ‾ 2 . . . λ ‾ n ] ⇒ λ i A^*=A\Rightarrow \begin{bmatrix}\lambda_1&&&\\&\lambda_2&&\\&&...&\\&&&\lambda_n\end{bmatrix}=\begin{bmatrix}\overline\lambda_1&&&\\&\overline\lambda_2&&\\&&...&\\&&&\overline\lambda_n\end{bmatrix}\Rightarrow \lambda_i A=Aλ1λ2...λn=λ1λ2...λnλi虚部为 0 0 0

​ 证毕。

Hermite阵的复二次型:

A A A是Hermite阵, x ∈ C n x\in C^n xCn,称 x ∗ A x x^*Ax xAx为二次型;

x ∗ A x > 0 时 , A 正 定 x^*Ax>0时,A正定 xAx>0A,此时 A A A的特征值均大于0

A A A是酉矩阵,则 A A A的特征值等于1;

Schur不等式:

∀ A ∈ C n × n , A = ( a i j ) n × n , 有 不 等 式 Σ i = 1 n ∣ λ i ∣ 2 ≤ Σ i , j = 0 n ∣ a i j ∣ 2 = t r ( A A ∗ ) \forall A\in C^{n\times n},A=(a_{ij})_{n\times n},有不等式\Sigma_{i=1}^n|\lambda_i|^2\le\Sigma_{i,j=0}^n|a_{ij}|^2=tr(AA^*) ACn×n,A=(aij)n×n,Σi=1nλi2Σi,j=0naij2=tr(AA)

证明:

​ 设 U U U是酉矩阵, A A A是Hermite矩阵,上三角阵 B B B A A A酉相似(Schur定理), B B B的对角线元素就是特征值

​ 则有 U ∗ A U = B ⇒ U ∗ A ∗ A U = B ∗ B ⇒ t r ( A ∗ A ) = t r ( B ∗ B ) ≥ Σ i = 1 n ∣ λ i ∣ 2 U^*AU=B\Rightarrow U^*A^*AU=B^*B\Rightarrow tr(A^*A)=tr(B^*B)\ge\Sigma_{i=1}^n|\lambda_i|^2 UAU=BUAAU=BBtr(AA)=tr(BB)Σi=1nλi2

∴ Σ i = 1 n ∣ λ i ∣ 2 ≤ Σ i , j = 0 n ∣ a i j ∣ 2 \therefore \Sigma_{i=1}^n|\lambda_i|^2\le\Sigma_{i,j=0}^n|a_{ij}|^2 Σi=1nλi2Σi,j=0naij2成立

A A A是正规矩阵时等式成立。

  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值