文章目录
有不少前辈对矩阵给出过精妙的直观描述,本文仅对这些奇妙的视角做一个简要归纳总结。而与之相关的各种严谨数学概念和证明可以参考任何一本线性代数教材,本文不做赘述。
一、矩阵及其运算
线性代数这门课通篇都在灌输一个思想,就是如何变换一个视角来更清晰简单的看待复杂问题。
(一)如何看待矩阵
矩阵就可以被看做是一组新基(基的概念可参见《简述线性方程组》)。因此可以说矩阵是通过描述一个新基来描述一个线性变换方案。而矩阵做乘法就是在实施其描述的线性变换,而变换的途径是改变原来空间的基。如下图所示:
所谓线性变换,即各变量经此映射后的线性组合,与各变量线性组合后再经此映射,结果一样。经线性变换后的空间网格线仍保持平行且等距。
(二)如何看待矩阵乘法
当把矩阵视为一组列向量时,矩阵左乘一个向量会得到另一个向量,可写成
A
X
=
Y
\boldsymbol A \boldsymbol X=\boldsymbol Y
AX=Y。左式展开可写成:
[
A
1
A
2
⋯
A
n
]
[
x
1
x
2
⋮
x
n
]
=
x
1
A
1
+
x
2
A
2
+
⋯
+
x
n
A
n
\left [\begin{matrix} \boldsymbol A_1 & \boldsymbol A_2 & \cdots & \boldsymbol A_n \end{matrix} \right ] \left [\begin{matrix} x_1 \\ x_2 \\ \vdots \\ x_n \end{matrix} \right ] = x_1\boldsymbol A_1+x_2\boldsymbol A_2+\cdots+x_n\boldsymbol A_n
[A1A2⋯An]
x1x2⋮xn
=x1A1+x2A2+⋯+xnAn右式其实可视为
I
Y
\boldsymbol I\boldsymbol Y
IY,其中
I
\boldsymbol I
I为单位阵,即
n
n
n维空间的一组标准正交基。由此可见,原来在
I
\boldsymbol I
I基上坐标是
X
\boldsymbol X
X的向量,通过将其坐标值直接放到
A
\boldsymbol A
A基上实现线性变换后,新向量的坐标在
A
\boldsymbol A
A基上是
X
\boldsymbol X
X,在
I
\boldsymbol I
I基上是
Y
\boldsymbol Y
Y。
任何向量都是以其在某基的各维上的投影向量和来表示。
当将上述单一列向量 X \boldsymbol X X换成另一个矩阵 B \boldsymbol B B,其相乘结果将是一个矩阵,即 A B = C \boldsymbol A \boldsymbol B=\boldsymbol C AB=C。此时 B \boldsymbol B B也可视为一组列向量,两矩阵相乘相当于把 B \boldsymbol B B描述的基向量都做了上述的线性变换,新基的各基向量坐标在 A \boldsymbol A A基上是 B \boldsymbol B B,在 I \boldsymbol I I基上是 C \boldsymbol C C。
所有矩阵都可视其左边有个同列数的单位阵,所以矩阵右乘一个向量即可视为直接变换该向量,也可视为变换该向量的基。
当然,也可以把矩阵视为一组行向量,此时矩阵右乘一个向量可解释为在
I
\boldsymbol I
I基上的坐标是
X
\boldsymbol X
X的向量投影到
A
\boldsymbol A
A张成的向量空间后的坐标是
Y
\boldsymbol Y
Y。其中各坐标轴的坐标值按该坐标轴上的基向量模长做了缩放。即
[
A
1
A
2
⋮
A
n
]
X
=
[
A
1
X
A
2
X
⋮
A
n
X
]
\left [\begin{matrix} \boldsymbol A_1 \\ \boldsymbol A_2 \\ \vdots \\ \boldsymbol A_n \end{matrix} \right ] \boldsymbol X = \left [\begin{matrix} \boldsymbol A_1 \boldsymbol X \\ \boldsymbol A_2 \boldsymbol X \\ \vdots \\ \boldsymbol A_n \boldsymbol X \end{matrix} \right ]
A1A2⋮An
X=
A1XA2X⋮AnX
(三)如何看待矩阵的初等变换
所谓初等变换包括初等行变换和初等列变换,指的是对矩阵的行或列做以下三种操作:
- 对调任意两行/列;
- 用一个系数乘以任意一行/列;
- 将某一行/列加到任意另一行/列上。
对一个矩阵做初等行(列)变换相当于在该矩阵左边(右边)乘以相同行数(列数)的相应初等矩阵。所谓“初等矩阵”即对单位矩阵做一项初等变换后的矩阵。
按此观点,可以很容易理解求逆阵的过程:对一个方阵做一系列初等行变换将其化为单位阵,就相当于左乘了其逆阵,因此同样的一系列初等变换作用于单位阵,也相当于对单位阵左乘那个逆阵,而任何矩阵左乘单位阵的结果不变,所以把一个方阵和一个同阶单位阵并排放一起做一系列初等行变换,当方阵变成单位阵时,原来单位阵的位置就成了原方阵的逆阵。
二、矩阵的特征值及其特征向量
(一)概念
对于一个 n n n阶方阵 A \boldsymbol A A而言, n n n维向量空间中有些向量通过与 A \boldsymbol A A相乘做线性变换后只是坐标尺度发生变化,而并未离开原向量所在直线,即 A X = λ X \boldsymbol A \boldsymbol X=\lambda \boldsymbol X AX=λX ,这些向量都称为该方阵的特征向量,而其相应的坐标尺度伸缩倍数 λ \lambda λ就是对应该特征向量的特征值。
(二)求法
由 A X = λ X \boldsymbol A \boldsymbol X=\lambda \boldsymbol X AX=λX 可得 ( A − λ I ) X = 0 (\boldsymbol A-\lambda \boldsymbol I) \boldsymbol X=0 (A−λI)X=0 ,而使 X \boldsymbol X X取得非零解的充要条件是 ∣ A − λ I ∣ = 0 |\boldsymbol A-\lambda \boldsymbol I|=0 ∣A−λI∣=0。解此多项式方程可得 λ \lambda λ的 n n n个解即为 n n n阶方阵 A \boldsymbol A A的 n n n个特征值。
将每个特征值代入 ( A − λ I ) X = 0 (\boldsymbol A-\lambda \boldsymbol I) \boldsymbol X=0 (A−λI)X=0都得到一个齐次线性方程组,其所有解构成了对应此特征值的特征向量空间(解法详见《简述线性方程组》)。对于唯一特征值,其特征向量空间就是一条直线。
(三)性质
设一个 n n n阶方阵 A \boldsymbol A A有 n n n个特征值 λ \lambda λ,其第 i i i个特征值 λ i \lambda_i λi对应第 i i i个特征向量 X i \boldsymbol X_i Xi。基于前述概念可知如下性质:
- 所有特征值的和是方阵对角线元素的和;所有特质值的积是方阵的行列式(可参见《简述行列式》中对行列式几何意义的描述)。
- 若 ϕ ( A ) = a 0 I + a 1 A + a 2 A 2 + ⋯ + a m A m \phi (\boldsymbol A)=a_0 \boldsymbol I + a_1 \boldsymbol A +a_2 \boldsymbol A^2+\cdots +a_m \boldsymbol A^m ϕ(A)=a0I+a1A+a2A2+⋯+amAm,则 ϕ ( λ i ) \phi (\lambda_i) ϕ(λi)仍是 ϕ ( A ) \phi (\boldsymbol A) ϕ(A)对应特征向量 X i \boldsymbol X_i Xi的特征值。
- 若 A \boldsymbol A A可逆,则 λ i − 1 \lambda_i^{-1} λi−1仍是 A − 1 \boldsymbol A^{-1} A−1对应特征向量 X i \boldsymbol X_i Xi的特征值。
- 不同特征值对应的特征向量一定线性无关;但不一定正交,除非是实对称阵的特征向量。
三、相似矩阵
(一)概念
P − 1 A P = B \boldsymbol P^{-1} \boldsymbol A \boldsymbol P= \boldsymbol B P−1AP=B 表示 I \boldsymbol I I基上的任一向量经基变换转移到 P \boldsymbol P P基上后,做一个 A \boldsymbol A A描述的线性变换,再转移回 I \boldsymbol I I基上的过程,等价于该向量在 I \boldsymbol I I基上直接做 B \boldsymbol B B描述的线性变换,此时称方阵 A \boldsymbol A A与 B \boldsymbol B B相似,其中称 P \boldsymbol P P为相似过渡阵。
可见相似矩阵就是同一线性变换方案(新基)在不同基上的不同描述。
(二)性质
- 相似方阵有相同特征值。
既然特征值反映的是一个线性变换中各特征向量的缩放倍数,而相似矩阵又是同一变换在不同基上的描述,因此有相同的放缩倍数,但对应的特征向量需经相似过渡阵做变换。 - 当
P
\boldsymbol P
P是由
A
\boldsymbol A
A的各线性无关特征向量构成的特征基时,
P
−
1
A
P
=
Λ
\boldsymbol P^{-1} \boldsymbol A \boldsymbol P= \boldsymbol \Lambda
P−1AP=Λ,其中
Λ
\boldsymbol \Lambda
Λ为由
A
\boldsymbol A
A的各特征值构成的对角阵。即方阵在其特征基上描述的变换等价于对
I
\boldsymbol I
I基按方阵各特征值对各基向量做缩放。
因为任何一个向量 X \boldsymbol X X经基变换转移到特征基 P \boldsymbol P P上后,则成为了一个由各特征向量线性组合构成的新向量,而 A \boldsymbol A A对其所有特征向量(即新向量的基)的作用都是按对应特征值做缩放,所以此向量再转移回 I \boldsymbol I I基后,其变化也相当于所在基 I \boldsymbol I I的各基向量按对各特征值做相应放缩(即空间网格只缩放而不改变形状和位置)。
四、二次型
(一)概念
任一
n
n
n元二次齐次多项式(即每一项都是2个未知数的乘积)都可表示为一个矩阵相乘的形式,称为二次型。例如
x
1
2
−
3
x
3
2
−
4
x
1
x
2
+
x
2
x
3
x_1^2-3x_3^2-4x_1x_2+x_2x_3
x12−3x32−4x1x2+x2x3可表示为
[
x
1
x
2
x
3
]
[
1
−
2
0
−
2
0
0.5
0
0.5
−
3
]
[
x
1
x
2
x
3
]
\left [\begin{matrix} x_1 & x_2 & x_3 \end{matrix} \right ] \left [\begin{matrix} 1 & -2 & 0 \\ -2 & 0 & 0.5 \\ 0 & 0.5 & -3 \\ \end{matrix} \right ] \left [\begin{matrix} x_1 \\ x_2 \\ x_3 \end{matrix} \right ]
[x1x2x3]
1−20−200.500.5−3
x1x2x3
简记为
X
T
A
X
\boldsymbol X^T \boldsymbol A \boldsymbol X
XTAX,其中
A
\boldsymbol A
A永远是对称阵。
(二)标准化
以二元二次齐次多项式为例,当其等于一个非0常数时,描述的都是一个中心在原点的椭圆,只是可能是被旋转了一定角度,如果可以通过换元来只保留平方项,则可得到一个焦点在 x x x轴上的标准椭圆,这个换元过程即为二次型的标准化。只保留平方项,其实就是化上述 A \boldsymbol A A为相似对角阵。
即找到一个过渡阵
P
\boldsymbol P
P,使得
X
=
P
Y
\boldsymbol X=\boldsymbol P \boldsymbol Y
X=PY,即
X
T
A
X
=
(
P
Y
)
T
A
(
P
Y
)
=
Y
T
(
P
T
A
P
)
Y
\boldsymbol X^T \boldsymbol A \boldsymbol X=(\boldsymbol P \boldsymbol Y)^T\boldsymbol A(\boldsymbol P \boldsymbol Y)=\boldsymbol Y^T (\boldsymbol P^T \boldsymbol A\boldsymbol P) \boldsymbol Y
XTAX=(PY)TA(PY)=YT(PTAP)Y时有
P
T
A
P
=
Λ
\boldsymbol P^T \boldsymbol A \boldsymbol P= \boldsymbol \Lambda
PTAP=Λ。
由于 A \boldsymbol A A是对称阵,可知其特征基矩阵 P \boldsymbol P P各列向量必然正交,如再做标准化,则其特征基就是一个标准正交基,由于标准正交基的转置方阵就是其逆阵,从而满足 P T A P = P − 1 A P = Λ \boldsymbol P^T \boldsymbol A \boldsymbol P=\boldsymbol P^{-1} \boldsymbol A \boldsymbol P= \boldsymbol \Lambda PTAP=P−1AP=Λ。可见二次型的标准化就是找到一个标准特征基来对二次型矩阵做对角化。