基础
-
对于 A = [ a 1 ⋯ a n ] ∈ R m × n A=[a_1\,\,\cdots\,\,a_n] \in R^{m \times n} A=[a1⋯an]∈Rm×n,
-
列空间(Column Space): C o l ( A ) : = S p a n { a 1 , ⋯ , a n } = { A x ∣ x ∈ R n } ⊆ R m Col(A) := Span\{a_1,\cdots,a_n\} = \{Ax|x \in R^n\} \sube R^m Col(A):=Span{a1,⋯,an}={Ax∣x∈Rn}⊆Rm
-
零空间(Null Space): N u l ( A ) : = { x ∣ A x = 0 , x ∈ R n } ⊆ R n Nul(A) := \{x|Ax=0,\,x \in R^n\} \sube R^n Nul(A):={x∣Ax=0,x∈Rn}⊆Rn
-
-
C o l ( A ) Col(A) Col(A)由所有的使得 A x = b Ax=b Ax=b有解的那些向量 b b b组成。对 A A A做初等行变换得到简化行阶梯型矩阵 A ′ A' A′, A ′ A' A′中枢轴所对应的 A A A的列向量集合 { A i } \{A_i\} {Ai},就是 C o l ( A ) Col(A) Col(A)的一组基。
-
N u l ( A ) Nul(A) Nul(A)就是 A x = 0 Ax=0 Ax=0的解空间, d i m ( N u l ( A ) ) dim(Nul(A)) dim(Nul(A))等于线性方程组 A x = 0 Ax=0 Ax=0的自由变量的个数 k k k。分别对自由变量取0或1,得到 k k k个线性无关的解向量 { x i } \{x_i\} {xi},就是 N u l ( A ) Nul(A) Nul(A)的一组基。
-
d i m ( C o l ( A ) ) = r a n k ( A ) dim(Col(A))=rank(A) dim(Col(A))=rank(A), d i m ( C o l ( A ) ) + d i m ( N u l ( A ) ) = n dim(Col(A))+dim(Nul(A))=n dim(Col(A))+dim(Nul(A))=n
-
对于线性映射 T : x ↦ A x T:x \mapsto Ax T:x↦Ax, C o l ( A ) Col(A) Col(A)是像(Range), N u l ( A ) Nul(A) Nul(A)是核(Kernel)。
-
求导数,是线性变换。因此,微分方程 y ′ ′ + c y = 0 y''+cy=0 y′′+cy=0的解,就是 T : f ( t ) ↦ f ′ ′ ( t ) + c f ( t ) T:f(t) \mapsto f''(t)+cf(t) T:f(t)↦f′′(t)+cf(t)的核。
-
若 V = S p a n ( B ) , x ∈ V V=Span(B),\,x \in V V=Span(B),x∈V,其中 B B B是一组秩为n的基 (基底并不一定是 R m × n R^{m \times n} Rm×n的元素),那么存在唯一的 c ∈ R n c \in R^n c∈Rn,使得 x = B c x=Bc x=Bc,它叫做 x x x的** B − B- B−坐标**,记为 [ x ] B [x]_B [x]B;也就是说,线性变换 [ ⋅ ] B : V → R n , x ↦ [ x ] B [\cdot]_B:V \rightarrow R^n,\,x \mapsto [x]_B [⋅]B:V→Rn,x↦[x]B
-
定义多项式空间 P n = { a 0 + a 1 x + ⋯ + a n − 1 x n − 1 } P_n = \{a_0+a_1x+\cdots+a_{n-1}x^{n-1}\} Pn={a0+a1x+⋯+an−1xn−1},那么有同构: P n ≅ R n + 1 P_n \cong R^{n+1} Pn≅Rn+1
-
三个离散信号 { u k } , { v k } , { w k } \{u_k\},\,\{v_k\},\,\{w_k\} {uk},{vk},{wk},它们的Casorati矩阵定义为:
A k = [ u k v k w k u k + 1 v k + 1 w k + 1 u k + 2 v k + 2 w k + 2 ] A_k= \begin{bmatrix} u_{k} & v_{k} & w_{k}\\ u_{k+1} & v_{k+1} & w_{k+1}\\ u_{k+2} & v_{k+2} & w_{k+2}\\ \end{bmatrix} Ak=⎣⎡ukuk+1uk+2vkvk+1vk+2wkwk+1wk+2⎦⎤
若 ∃ k \exist k ∃k,使得 A k A_k Ak可逆,那么三个离散信号相互独立:线性方程组 c 1 u k + c 2 v k + c 3 w k = 0 , ∀ k c_1u_k+c_2v_k+c_3w_k=0,\,\forall k c1uk+c2vk+c3wk=0,∀k 只有平凡解。
线性差分方程
-
给定序列 { z k } \{z_k\} {zk}和标量 a 0 , ⋯ , a n a_0,\cdots,a_n a0,⋯,an,n阶线性差分方程 (Linear Difference Equation) 定义为: a 0 y k + n + a 1 y k + n − 1 + ⋯ + a n y k = z k a_0y_{k+n}+a_1y_{k+n-1}+\cdots+a_ny_{k}=z_k a0yk+n+a1yk+n−1+⋯+anyk=zk;如 { z k } \{z_k\} {zk}是零序列,那么方程是齐次的。给定初值 y 0 , y − 1 , ⋯ , y n − 1 y_0,y-1,\cdots,y_{n-1} y0,y−1,⋯,yn−1,那么方程的解 { y k } \{y_k\} {yk}被唯一确定。
-
数字信号处理中,上述方程也叫线性滤波器 (Linear Filter), a 0 , ⋯ , a n a_0,\cdots,a_n a0,⋯,an叫做滤波器系数 (Filter Coefficients), { y k } \{y_k\} {yk}是输入信号, { z k } \{z_k\} {zk}是输出信号。
-
如果线性滤波器让低频信号原样输出,但让高频信号的输出结果是零序列,那么叫做低通滤波器。例如,滤波器 2 4 y k + 2 + 1 2 y k + 1 + 2 4 y k = z k \frac{\sqrt 2}{4}y_{k+2}+\frac{1}{2}y_{k+1}+\frac{\sqrt 2}{4}y_{k}=z_k 42yk+2+21yk+1+42yk=zk,低频信号 cos π k 4 \cos{\frac{\pi k}{4}} cos4πk,高频信号 cos 3 π k 4 \cos{\frac{3\pi k}{4}} cos43πk
-
n阶首一齐次线性差分方程 y k + n + a 1 y k + n − 1 + ⋯ + a n y k = 0 , ∀ k y_{k+n}+a_1y_{k+n-1}+\cdots+a_ny_{k}=0,\,\forall k yk+n+a1yk+n−1+⋯+anyk=0,∀k的解集 H H H,它是n维线性空间。定义线性映射 f : { y k } ↦ { z k } f:\{y_k\} \mapsto \{z_k\} f:{yk}↦{zk},则 H = ker f H=\ker{f} H=kerf,是序列空间 S S S的线性子空间。定义线性双射 F : { y k } ∈ H ↦ ( y k [ 0 ] , y k [ 1 ] , ⋯ , y k [ n − 1 ] ) ∈ R n F:\{y_k\} \in H \mapsto (y_k[0],y_k[1],\cdots,y_k[n-1]) \in R^n F:{yk}∈H↦(yk[0],yk[1],⋯,yk[n−1])∈Rn,两者同构。
-
对于n阶线性差分方程 y k + n + a 1 y k + n − 1 + ⋯ + a n y k = 0 y_{k+n}+a_1y_{k+n-1}+\cdots+a_ny_{k}=0 yk+n+a1yk+n−1+⋯+anyk=0,解为 { y k } \{y_k\} {yk};令 x k = [ y k , y k + 1 , ⋯ , y k + n ] x_k = [y_{k},y_{k+1},\cdots,y_{k+n}] xk=[yk,yk+1,⋯,yk+n],那么,可以写作一阶差分方程: x k + 1 = A ⋅ x k x_{k+1}=A \cdot x_k xk+1=A⋅xk,且
A = [ 0 1 0 0 ⋯ 0 0 0 1 0 ⋯ 0 0 0 0 ⋱ ⋮ ⋮ ⋮ 0 0 0 ⋯ 0 1 − a n − a n − 1 ⋯ − a 1 ] ∈ R n × n A= \begin{bmatrix} 0 & 1 & 0 & 0 & \cdots & 0\\ 0 & 0 & 1 & 0 & \cdots & 0\\ 0 & 0 & 0 &\ddots\\ \vdots & \vdots &\vdots\\ 0 & 0 & 0 & \cdots & 0 & 1\\ \hline -a_n & -a_{n-1} && \cdots && -a_1\\ \end{bmatrix} \in R^{n \times n} A=⎣⎢⎢⎢⎢⎢⎢⎢⎡000⋮0−an100⋮0−an−1010⋮000⋱⋯⋯⋯⋯0001−a1⎦⎥⎥⎥⎥⎥⎥⎥⎤∈Rn×n
Markov Chain
-
马尔可夫链 : { x k } , x k + 1 = P ⋅ x k \{x_k\},\,x_{k+1} = P \cdot x_k {xk},xk+1=P⋅xk, P P P叫做概率转移矩阵 ( P i j P_{ij} Pij代表从状态 s i s_i si转移到状态 s j s_j sj的概率,每列加和为1),概率向量 x k x_k xk叫做状态向量。如果 P ⋅ x k = x k P\cdot x_{k} = x_k P⋅xk=xk,那么称 x k x_k xk是稳定状态向量 (平稳分布)。
-
如果 ∃ k , P k \exist k,\,P^k ∃k,Pk的元素都严格大于零,那么称 P P P是正则的 (regular);这意味着任意状态 s i s_i si最终都能够以非零概率到达状态 s j s_j sj,这样的马尔可夫链叫做正则链。注意,正则链的 P P P中可能包含0元素。
-
任意马尔可夫链,都至少存在一个稳定分布。但是,状态序列不一定会收敛于平稳分布!
-
正则链的稳定状态向量 q q q 唯一,且从任意状态 x 0 x_0 x0起始,都有: lim k → ∞ P k x 0 = q \lim\limits_{k \rightarrow \infty} P^k x_0 = q k→∞limPkx0=q,即 { x k } \{x_k\} {xk}收敛于 q q q
特征
-
一阶差分方程 x k + 1 = A ⋅ x k x_{k+1}=A\cdot x_k xk+1=A⋅xk,往往也被称为动力系统 (dynamical system)
-
上述变换往往会改变向量方向,但也有一些特殊的向量 v v v,做变换后不改变方向: A v = λ v A v=\lambda v Av=λv,这就是特征值与特征向量了。每一个特征值 λ i \lambda_i λi都对应一个特征子空间,里面的向量都满足 A v = λ i v A v=\lambda_i v Av=λiv,子空间的维度叫做特征值的几何重数,空间基底记为 B i B_i Bi
-
λ ∈ C \lambda \in C λ∈C是特征值,当仅当 ∃ 0 ≠ x ∈ C n , ( A − λ I ) x = 0 \exist 0 \not = x \in C^n,\, (A-\lambda I)x=0 ∃0=x∈Cn,(A−λI)x=0;三角阵的特征值就是它的主对角线元素,此时阶梯方阵 A − λ I A-\lambda I A−λI的解存在至少一个自由变量。
-
如果特征向量 v 1 , ⋯ , v r v_1,\cdots,v_r v1,⋯,vr对应不同的特征值 λ 1 , ⋯ , λ r \lambda_1,\cdots,\lambda_r λ1,⋯,λr,那么这组向量线性无关。
-
任取 A A A的一个特征向量 v i v_i vi,对应特征值 λ i \lambda_i λi;那么 { x k } , x k = λ i k v i \{x_k\},\,x_k=\lambda_i^k v_i {xk},xk=λikvi,是方程 x k + 1 = A x k x_{k+1}=Ax_k xk+1=Axk的一个解。并且,这些解的线性组合还是方程的解!
-
对于动力系统 x k + 1 = A ⋅ x k x_{k+1}=A\cdot x_k xk+1=A⋅xk,我们计算 A A A的所有特征值和特征向量 { ( λ i , v i ) } \{(\lambda_i,v_i)\} {(λi,vi)},那么序列 x k = c 1 λ 1 k v 1 + ⋯ + c n λ n k v n , ∀ c i ∈ R x_k = c_1\lambda_1^kv_1+\cdots+c_n\lambda_n^kv_n,\, \forall c_i \in R xk=c1λ1kv1+⋯+cnλnkvn,∀ci∈R是方程的解,其中的初始值可被特征向量线性表出: x 0 = c 1 v 1 + ⋯ + c n v n x_0 = c_1v_1+\cdots+c_nv_n x0=c1v1+⋯+cnvn;我们将计算矩阵乘迭代,转化为了计算特征值幂次,大大提高了效率!
-
f A ( λ ) = d e t ( A − λ I ) f_A(\lambda) = det(A-\lambda I) fA(λ)=det(A−λI)的根,就是所有的特征值 { λ i } \{\lambda_i\} {λi},根的重数叫做特征值的代数重数。计算上重数, A A A一共有n个特征值。
-
方阵 A A A,三角阵 U U U是从 A A A做行替换和 r r r次行交换 (没有行倍乘),那么 d e t ( A ) = ( − 1 ) r ∏ i U i i = ( − 1 ) r ⋅ d e t ( U ) det(A)=(-1)^r \prod_i U_{ii}=(-1)^r \cdot det(U) det(A)=(−1)r∏iUii=(−1)r⋅det(U),因此:零不是矩阵 A A A的特征值 ⟺ \iff ⟺ d e t ( A ) ≠ 0 det(A) \not = 0 det(A)=0;注意,行变换往往会改变特征值。
-
相似:若 A = P B P − 1 A=PBP^{-1} A=PBP−1,那么称方阵 A A A相似于 B B B,其中 P P P是可逆方阵。线性双射 T : A ↦ P − 1 A P T:A \mapsto P^{-1}AP T:A↦P−1AP叫做相似变换。
-
给定 P , A P,A P,A,计算 P − 1 A P P^{-1}AP P−1AP:可以做行约减 [ P ∣ A P ] → [ I ∣ P − 1 A P ] [P\,|\,AP] \rightarrow [I\,|\,P^{-1}AP] [P∣AP]→[I∣P−1AP],从而 P − 1 P^{-1} P−1是不用计算的,并且减少一次矩阵乘,大大提高效率!
-
相似矩阵拥有相同特征方程,即 d e t ( B − λ I ) = d e t ( A − λ I ) det(B-\lambda I) = det(A-\lambda I) det(B−λI)=det(A−λI),它们特征值相同。但是,特征值相同的矩阵不一定相似!
-
当仅当 A A A的 n n n个特征向量线性无关 (特征值有重数也没关系), A A A可对角化: A = P D P − 1 A=PDP^{-1} A=PDP−1,其中 D = d i a g ( λ 1 , ⋯ , λ n ) D=diag(\lambda_1,\cdots,\lambda_n) D=diag(λ1,⋯,λn),且 P = [ v 1 , ⋯ , v n ] P=[v_1,\cdots,v_n] P=[v1,⋯,vn]
-
如果 A A A的特征值互不相同,那么特征向量必然线性无关,从而可对角化。
-
如果 A = P D P − 1 A=PDP^{-1} A=PDP−1,那么矩阵幂次是容易的: A k = P D k P − 1 A^k = PD^kP^{-1} Ak=PDkP−1,其中对角阵的幂次为 D k = d i a g ( λ 1 k , ⋯ , λ n k ) D^k = diag(\lambda_1^k,\cdots,\lambda_n^k) Dk=diag(λ1k,⋯,λnk)
-
n阶方阵 A A A的不同的特征值为 λ 1 , ⋯ , λ p \lambda_1,\cdots,\lambda_p λ1,⋯,λp,那么:
- 几何重数 ≤ \le ≤ 代数重数, ∑ \sum ∑ 代数重数 = n =n =n
- 可对角化 ⟺ \iff ⟺ ∑ \sum ∑ 几何重数 = n =n =n
- 若可对角化, B i B_i Bi是 λ i \lambda_i λi的特征子空间的基底,那么 [ B 1 , ⋯ , B p ] [B_1,\cdots,B_p] [B1,⋯,Bp]就是 R n R^n Rn的一组由特征向量构成的基。
-
如果 A A A可对角化,那么 x k + 1 = A x k x_{k+1}=Ax_k xk+1=Axk对任意初始值 x 0 x_0 x0,都可以表示为 x k = c 1 λ 1 k v 1 + ⋯ + c n λ n k v n x_k = c_1\lambda_1^kv_1+\cdots+c_n\lambda_n^kv_n xk=c1λ1kv1+⋯+cnλnkvn,因为 x 0 ∈ R n x_0 \in R^n x0∈Rn且 S p a n ( [ B 1 , ⋯ , B p ] ) = R n Span([B_1,\cdots,B_p])=R^n Span([B1,⋯,Bp])=Rn
变换
-
线性变换 T : V → V T:V \rightarrow V T:V→V,其中 d i m ( V ) = n dim(V)=n dim(V)=n, B B B是一组基,
v ∈ V → 做 变 换 T → T ( v ) ∈ V ↓ ↓ [ v ] B ∈ R n → 乘 矩 阵 [ T ] B → [ T ] B [ v ] B \begin{aligned} v \in V && \rightarrow && 做变换T && \rightarrow && T(v) \in V \\ \downarrow && && && && \downarrow \\ [v]_B \in R^n && \rightarrow && 乘矩阵[T]_B && \rightarrow && [T]_B[v]_B \\ \end{aligned} v∈V↓[v]B∈Rn→→做变换T乘矩阵[T]B→→T(v)∈V↓[T]B[v]B -
如果 A = P C P − 1 ∈ R n × n A=PCP^{-1} \in R^{n \times n} A=PCP−1∈Rn×n,并且可逆阵 P P P的列组成 R n R^n Rn的一组基 B B B;则线性变换 T : x ↦ A x T:x \mapsto A x T:x↦Ax,有 [ T ] B = C [T]_B = C [T]B=C,且 [ x ] B ↦ C ⋅ [ x ] B [x]_B \mapsto C \cdot [x]_B [x]B↦C⋅[x]B
T : x → 乘 A → A x ↓ ↑ 乘 P − 1 乘 P ↓ ↑ T ′ : [ x ] B → 乘 C → [ A x ] B \begin{aligned} T: && x && \rightarrow && 乘A && \rightarrow && Ax \\ && \downarrow && && && && \uparrow \\ && 乘P^{-1} && && && && 乘P \\ && \downarrow && && && && \uparrow \\ T': && [x]_B && \rightarrow && 乘C && \rightarrow && [Ax]_B \\ \end{aligned} T:T′:x↓乘P−1↓[x]B→→乘A乘C→→Ax↑乘P↑[Ax]B -
复向量可以写作实数部分和虚数部分的和: x = R e ( x ) + i ⋅ I m ( x ) ∈ C n x=Re(x)+i \cdot Im(x) \in C^n x=Re(x)+i⋅Im(x)∈Cn,其中 ( R e ( x ) , I m ( x ) ) ∈ R n × R n (Re(x),Im(x)) \in R^n \times R^n (Re(x),Im(x))∈Rn×Rn
-
共轭: x ˉ = R e ( x ) − i ⋅ I m ( x ) \bar x = Re(x)-i \cdot Im(x) xˉ=Re(x)−i⋅Im(x),并且 r x ‾ = r ˉ x ˉ , B x ‾ = B ˉ x ˉ \overline{rx}= \bar r \bar x,\, \overline{Bx} = \bar B \bar x rx=rˉxˉ,Bx=Bˉxˉ
-
实矩阵 A A A,对于复向量 v v v,有: A ⋅ R e ( v ) = R e ( A v ) , A ⋅ I m ( v ) = I m ( A v ) A \cdot Re(v) = Re(Av),\, A \cdot Im(v) = Im(Av) A⋅Re(v)=Re(Av),A⋅Im(v)=Im(Av)
-
对于实矩阵 A A A,若 ( λ , v ) (\lambda,v) (λ,v)是一对特征值和特征向量,那么它的共轭 ( λ ˉ , v ˉ ) (\bar \lambda,\bar v) (λˉ,vˉ)也是: A v = λ v ⟺ A v ˉ = λ ˉ v ˉ Av=\lambda v \iff A \bar v = \bar \lambda \bar v Av=λv⟺Avˉ=λˉvˉ
-
2阶实矩阵,若它有复特征值,那么它不可对角化 (2维特征向量与其共轭向量线性相关)
-
2阶实矩阵,若 v v v是复特征值对应的复特征向量,那么 R e ( v ) , I m ( v ) Re(v),Im(v) Re(v),Im(v)在 R 2 R^2 R2上线性无关。
-
对于2阶实方阵 A ∈ R 2 × 2 A \in R^{2 \times 2} A∈R2×2,若它有复特征值 λ = a − b i , b ≠ 0 \lambda=a-bi,\,b \not = 0 λ=a−bi,b=0 (另一个是 λ ˉ \bar \lambda λˉ),以及对应的复特征向量 v ∈ C 2 v \in C^2 v∈C2,那么有:
A = P C P − 1 , P = [ R e ( v ) , I m ( v ) ] , C = [ a − b b a ] A=PCP^{-1},\,\, P=[Re(v),Im(v)],\,\, C= \begin{bmatrix} a & -b\\ b & a\\ \end{bmatrix} A=PCP−1,P=[Re(v),Im(v)],C=[ab−ba]
其中的 C C C是旋转矩阵的倍数,旋转角 ϕ = arctan b a \phi = \arctan{\frac{b}{a}} ϕ=arctanab,倍数 r = a 2 + b 2 = ∣ λ ∣ r=\sqrt{a^2+b^2}=|\lambda| r=a2+b2=∣λ∣因此, T ′ : P − 1 x ↦ C ( P − 1 x ) T':P^{-1}x \mapsto C(P^{-1}x) T′:P−1x↦C(P−1x),于是 x k + 1 = A x k x_{k+1}=Ax_k xk+1=Axk的解 { x k } \{x_k\} {xk}轨迹将会组成螺线型;若 ∣ λ ∣ = 1 |\lambda|=1 ∣λ∣=1,则会构成椭圆形。
-
对于2阶实矩阵
C = [ a − b b a ] C= \begin{bmatrix} a & -b\\ b & a\\ \end{bmatrix} C=[ab−ba]
它的特征值就是 a ± b i a \pm bi a±bi,对应的特征向量就是 [ 1 , ∓ i ] t [1,\mp i]^t [1,∓i]t。注意, C C C是实的类旋转矩阵,对于 v ∈ R 2 v \in R^2 v∈R2做变换后一定会改变方向。但在 v ∈ C 2 v \in C^2 v∈C2上是存在不改变方向的向量 (区分2维复空间 C 2 C^2 C2和复平面 C C C),也就是复特征向量。
-
对于3阶实矩阵
A = [ a − b 0 b a 0 0 0 c ] A= \begin{bmatrix} a & -b & 0\\ b & a & 0\\ 0 & 0 & c\\ \end{bmatrix} A=⎣⎡ab0−ba000c⎦⎤
有: d e t ( A − λ I ) = [ ( a − λ ) + b 2 ] ( c − λ ) det(A-\lambda I) = [(a-\lambda)+b^2](c-\lambda) det(A−λI)=[(a−λ)+b2](c−λ);因此三个特征值是: c , a ± b i c, a\pm bi c,a±bi,对应特征向量为: [ 0 , 0 , 1 ] t , [ 1 , ∓ i , 0 ] t [0,0,1]^t,\, [1,\mp i,0]^t [0,0,1]t,[1,∓i,0]t