线性代数及矩阵论（九）

_森罗万象

已于 2022-01-27 20:14:59 修改

阅读量2k

点赞数 2

分类专栏：线性代数及矩阵论文章标签：线性代数矩阵

于 2022-01-19 18:52:03 首次发布

本文链接：https://blog.csdn.net/weixin_52812620/article/details/122587645

版权

线性代数及矩阵论专栏收录该内容

11 篇文章 1 订阅

订阅专栏

线性代数原文 MIT 18.06 线性代数笔记
矩阵论笔记来自工程矩阵理论
综合线性代数机器学习的数学基础
配合视频线性代数工程矩阵理论

文章目录

二十九、相似矩阵和若尔当形
- 1.相似矩阵
- 2.若尔当形
第三十讲：奇异值分解
第三十一讲：线性变换及对应矩阵

二十九、相似矩阵和若尔当形

在本讲的开始，先接着上一讲来继续说一说正定矩阵。

正定矩阵的逆矩阵有什么性质？我们将正定矩阵分解为 $A=S\Lambda S^{-1}$ ，引入其逆矩阵 $A^{-1}=S\Lambda^{-1}S^{-1}$ （正定矩阵的顺序主子式大于零，因此必可逆），我们知道正定矩阵的特征值均为正值，所以其逆矩阵的特征值也必为正值（即原矩阵特征值的倒数）所以，正定矩阵的逆矩阵也是正定的。
如果 $A,\ B$ 均为正定矩阵，那么 $A + B$ 呢？我们可以从判定 $x^T(A+B)x$ 入手，根据条件有 $x^TAx>0,\ x^TBx>0$ ，将两式相加即得到 $x^T(A+B)x>0$ 。所以正定矩阵之和也是正定矩阵。
再来看有 $m\times n$ 矩阵 $A$ ，则 $A^TA$ 具有什么性质？我们在投影部分经常使用 $A^TA$ ，这个运算会得到一个对称矩阵，这个形式的运算用数字打比方就像是一个平方，用向量打比方就像是向量的长度平方，而对于矩阵，有 $A^TA$ 正定：在式子两边分别乘向量及其转置得到 $x^TA^TAx$ ，分组得到 $Ax)^T(Ax)$ ，相当于得到了向量 $A x$ 的长度平方，则 $|Ax|^2\geq0$ 。要保证模不为零，则需要 $A x$ 的零空间中仅有零向量，即 $A$ 的各列线性无关（ $r a n k (A) = n$ ）即可保证 $Ax|^2>0$ ， $A^TA$ 正定。
另外，在矩阵数值计算中，正定矩阵消元不需要进行“行交换”操作，也不必担心主元过小或为零，正定矩阵具有良好的计算性质。

1.相似矩阵

一组相似矩阵表示的是同样的线性变换，就像是对一个人从不同的角度（即基不同）拍照，照片是不一样的，但实际上都是在拍用一个人

先列出定义：矩阵 $A,\ B$ 对于某矩阵 $M$ 满足 $B=M^{-1}AM$ 时，成 $A,\ B$ 互为相似矩阵。

对于在对角化一讲（第二十二讲）中学过的式子 $S^{-1}AS=\Lambda$ ，则有 $A$ 相似于 $\Lambda$ 。

举个例子， $A=\begin{bmatrix}2&1\\1&2\end{bmatrix}$ ，容易通过其特征值得到相应的对角矩阵 $\Lambda=\begin{bmatrix}3&0\\0&1\end{bmatrix}$ ，取 $M=\begin{bmatrix}1&4\\0&1\end{bmatrix}$ ，则 $B=M^{-1}AM=\begin{bmatrix}1&-4\\0&1\end{bmatrix}\begin{bmatrix}2&1\\1&2\end{bmatrix}\begin{bmatrix}1&4\\0&1\end{bmatrix}=\begin{bmatrix}-2&-15\\1&6\end{bmatrix}$ 。

我们来计算这几个矩阵的的特征值（利用迹与行列式的性质）， $\lambda_{\Lambda}=3,\ 1$ 、 $\lambda_A=3,\ 1$ 、 $\lambda_B=3,\ 1$ 。

所以，相似矩阵有相同的特征值。

继续上面的例子，特征值为 $3,\ 1$ 的这一族矩阵都是相似矩阵，如 $\begin{bmatrix}3&7\\0&1\end{bmatrix}$ 、 $\begin{bmatrix}1&7\\0&3\end{bmatrix}$ ，其中最特殊的就是 $\Lambda$ 。

现在我们来证明这个性质，有 $Ax=\lambda x,\ B=M^{-1}AM$ ，第一个式子化为 $AMM^{-1}x=\lambda x$ ，接着两边同时左乘 $M^{-1}$ 得 $M^{-1}AMM^{-1}x=\lambda M^{-1}x$ ，进行适当的分组得 $\left(M^{-1}AM\right)M^{-1}x=\lambda M^{-1}x$ 即 $BM^{-1}x=\lambda M^{-1}x$ 。

$BM^{-1}x=\lambda M^{-1}x$ 可以解读成矩阵 $B$ 与向量 $M^{-1}x$ 之积等于 $\lambda$ 与向量 $M^{-1}x$ 之积，也就是 $B$ 的特征值仍为 $\lambda$ ，而特征向量变为 $M^{-1}x$ 。

以上就是我们得到的一族特征值为 $3,\ 1$ 的矩阵，它们具有相同的特征值。接下来看特征值重复时的情形。

特征值重复可能会导致特征向量短缺，来看一个例子，设 $\lambda_1=\lambda_2=4$ ，写出具有这种特征值的矩阵中的两个 $\begin{bmatrix}4&0\\0&4\end{bmatrix}$ ， $\begin{bmatrix}4&1\\0&4\end{bmatrix}$ 。其实，具有这种特征值的矩阵可以分为两族，第一族仅有一个矩阵 $\begin{bmatrix}4&0\\0&4\end{bmatrix}$ ，它只与自己相似（因为 $M^{-1}\begin{bmatrix}4&0\\0&4\end{bmatrix}M=4M^{-1}EM=4E=\begin{bmatrix}4&0\\0&4\end{bmatrix}$ ，所以无论 $M$ 如何取值该对角矩阵都只与自己相似）；另一族就是剩下的诸如 $\begin{bmatrix}4&1\\0&4\end{bmatrix}$ 的矩阵，它们都是相似的。在这个“大家族”中， $\begin{bmatrix}4&1\\0&4\end{bmatrix}$ 是“最好”的一个矩阵，称为若尔当形。

若尔当形在过去是线性代数的核心知识，但现在不是了（现在是下一讲的奇异值分解），因为它并不容易计算。

继续上面的例子，我们再写出几个这一族的矩阵 $\begin{bmatrix}4&1\\0&4\end{bmatrix},\ \begin{bmatrix}5&1\\-1&3\end{bmatrix},\ \begin{bmatrix}4&0\\17&4\end{bmatrix}$ ，我们总是可以构造出一个满足 $trace(A)=8,\ |A|=16$ 的矩阵，这个矩阵总是在这一个“家族”中。

矩阵 $A$ 和 $B$ 相似有如下性质

$|\lambda E-A|=|\lambda E-B|$
$r (A) = r (B)$
$A$ 和 $B$ 有相同的特征值
$∣ A ∣ = ∣ B ∣ = 特征值之积$
$t r a (A) = t r a (B) = 特征值之和$
矩阵特征值只有可能是化零多项式的零点，但化零多项式的零点不一定是特征值
化零多项式的解可以用 $P^{-1}AP$ 表达， $A$ 是对角阵，对角线元素是化零多项式的零点，每个零点个数不定
化零多项式无重根（代数重度不确定） $\Rightarrow$ 最小多项式无重根（最小多项式能整除化零多项式） $\Rightarrow$ 矩阵可对角化
$J o r d a n$ 块可以写成 $J=\lambda E_k+N$ ，即 $N$ 矩阵（幂零矩阵）和数量矩阵（对角阵）
对于方阵 $A$ 和方阵 $B$ ，若 $|A|{\neq}0$ ，那么 $A B$ 和 $B A$ 相似

2.若尔当形

再来看一个更加“糟糕”的矩阵：

矩阵 $\begin{bmatrix}0&1&0&0\\0&0&1&0\\0&0&0&0\\0&0&0&0\end{bmatrix}$ ，其特征值为四个零。很明显矩阵的秩为 $2$ ，所以其零空间的维数为 $4 - 2 = 2$ ，即该矩阵有两个特征向量。
另一个例子， $\begin{bmatrix}0&1&0&0\\0&0&0&0\\0&0&0&1\\0&0&0&0\end{bmatrix}$ ，从特征向量的数目看来这两个矩阵是相似的，其实不然。

若尔当认为第一个矩阵是由一个 $3\times 3$ 的块与一个 $1\times 1$ 的块组成的 $\left[\begin{array}{ccc|c}0&1&0&0\\0&0&1&0\\0&0&0&0\\\hline0&0&0&0\end{array}\right]$ ，而第二个矩阵是由两个 $2\times 2$ 矩阵组成的 $\left[\begin{array}{cc|cc}0&1&0&0\\0&0&0&0\\\hline0&0&0&1\\0&0&0&0\end{array}\right]$ ，这些分块被称为若尔当块。

若尔当块的定义型为 $J_i=\begin{bmatrix}\lambda_i&1&&\cdots&\\&\lambda_i&1&\cdots&\\&&\lambda_i&\cdots&\\\vdots&\vdots&\vdots&\ddots&\\&&&&\lambda_i\end{bmatrix}$ ，它的对角线上只为同一个数，仅有一个特征向量。

所以，每一个矩阵 $A$ 都相似于一个若尔当矩阵，型为 $J=\left[\begin{array}{c|c|c|c}J_1&&&\\\hline&J_2&&\\\hline&&\ddots&\\\hline&&&J_d\end{array}\right]$ 。注意，对角线上方还有 $1$ 。若尔当块的个数即为矩阵特征值的个数。

在矩阵为“好矩阵”的情况下， $n$ 阶矩阵将有 $n$ 个不同的特征值，那么它可以对角化，所以它的若尔当矩阵就是 $\Lambda$ ，共 $n$ 个特征向量，有 $n$ 个若尔当块。

矩阵的行列式因子、不变因子、初等因子
一次因式
特征多项式的因式数目 $n$ 确定 $J o r d a n$ 标准型由 $n$ 个子 $J o r d a n$ 矩阵构成
每个代数重数 $k$ 确定这 $n$ 个子 $J o r d a n$ 矩阵的阶数
每个子 $J o r d a n$ 矩阵的对角元是特征值，最小多项式确定每个子 $J o r d a n$ 矩阵中的所有 $J o r d a n$ 块必有的且最高的阶数（这里说子 $J o r d a n$ 矩阵是因为只确定了对角线元素，而不能确定 $J o r d a n$ 块的形式，因为不同的 $J o r d a n$ 块可能有同一个对角线值，因此可以理解为 $\ne 同一个Jordan块$ ）

任意矩阵 $A$ 都一定相似于唯一的 $J o r d a n$ 标准形（忽略 $J o r d a n$ 块的次序），对于给定的矩阵 $A$ 可以尝试以下方法寻找它对应的 $J o r d a n$ 标准形：

写出 $A$ 的特征多项式，确定 $J o r d a n$ 标准形的可能形式 $J_1,J_2,J_3,\cdots,J_s$ （依据上面的规则）
根据 $r(A-\lambda E)=r(J-\lambda E)$ 排除其中不可能的形式

第三十讲：奇异值分解

本讲我们将一个矩阵分解为 $A=U\varSigma V^T$ ，分解的因子分别为正交矩阵、对角矩阵、正交矩阵，与前面几讲的分解不同的是，这两个正交矩阵通常是不同的，而且这个式子可以对任意矩阵使用，不仅限于方阵、可对角化的方阵等。

在正定一讲中（第二十八讲）我们知道一个正定矩阵（正定矩阵概念不同，部分教材定义正定二次型的矩阵称为正定矩阵）可以分解为 $A=Q\Lambda Q^T$ 的形式，由于 $A$ 是对称的，其特征向量是正交的，且其 $\Lambda$ 矩阵中的元素皆为正，这就是正定矩阵的奇异值分解。在这种特殊的分解中，我们只需要一个正交矩阵 $Q$ 就可以使等式成立。
在对角化一讲中（第二十二讲），我们知道可对角化的矩阵能够分解为 $A=S\Lambda S^T$ 的形式，其中 $S$ 的列向量由 $A$ 的特征向量组成，但 $S$ 并不是正交矩阵，所以这不是我们希望得到的奇异值分解。

我们现在要做的是，在 $A$ 的列空间中找到一组特殊的正交基 $v_1,v_2,\cdots,v_r$ ，这组基在 $A$ 的作用下可以转换为 $A$ 的行空间中的一组正交基 $u_1,u_2,\cdots,u_r$

用矩阵语言描述为 $A\Bigg[v_1\ v_2\ \cdots\ v_r\Bigg]=\Bigg[\sigma_1u_1\ \sigma_2u_2\ \cdots\ \sigma_ru_r\Bigg]=\Bigg[u_1\ u_2\ \cdots\ u_r\Bigg]\begin{bmatrix}\sigma_1&&&\\&\sigma_2&&\\&&\ddots&\\&&&\sigma_n\end{bmatrix}$ ，即 $Av_1=\sigma_1u_1,\ Av_2=\sigma_2u_2,\cdots,Av_r=\sigma_ru_r$ ，这些 $\sigma$ 是缩放因子，表示在转换过程中有拉伸或压缩。而 $A$ 的左零空间和零空间将体现在 $\sigma$ 的零值中。

另外，如果算上左零、零空间，我们同样可以对左零、零空间取标准正交基，然后写为 $A\Bigg[v_1\ v_2\ \cdots\ v_r\ v_{r+1}\ \cdots\ v_m\Bigg]=\Bigg[u_1\ u_2\ \cdots\ u_r\ u_{r+1}\ \cdots \ u_n\Bigg]\left[\begin{array}{c c c|c}\sigma_1&&&\\&\ddots&&\\&&\sigma_r&\\\hline&&&\begin{bmatrix}0\end{bmatrix}\end{array}\right]$ ，此时 $U$ 是 $m\times m$ 正交矩阵， $\varSigma$ 是 $m\times n$ 对角矩阵， $V^T$ 是 $n\times n$ 正交矩阵。

最终可以写为 $AV=U\varSigma$ ，可以看出这十分类似对角化的公式，矩阵 $A$ 被转化为对角矩阵 $\varSigma$ ，我们也注意到 $U,\ V$ 是两组不同的正交基。（在正定的情况下， $U,\ V$ 都变成了 $Q$ 。）进一步可以写作 $A=U\varSigma V^{-1}$ ，因为 $V$ 是标准正交矩阵所以可以写为 $A=U\varSigma V^T$

计算一个例子， $A=\begin{bmatrix}4&4\\-3&3\end{bmatrix}$ ，我们需要找到：

行空间 $\mathbb{R}^2$ 的标准正交基 $v_1,v_2$ ；
列空间 $\mathbb{R}^2$ 的标准正交基 $u_1,u_2$ ；
$\sigma_1>0, \sigma_2>0$ 。

在 $A=U\varSigma V^T$ 中有两个标准正交矩阵需要求解，我们希望一次只解一个，如何先将 $U$ 消去来求 $V$ ？

这个技巧会经常出现在长方形矩阵中：求 $A^TA$ ，这是一个对称半正定矩阵，于是有 $A^TA=V\varSigma^TU^TU\varSigma V^T$ ，由于 $U$ 是标准正交矩阵，所以 $U^TU=E$ ，而 $\varSigma^T\varSigma$ 是对角线元素为 $\sigma^2$ 的对角矩阵。

现在有 $A^TA=V\begin{bmatrix}\sigma_1&&&\\&\sigma_2&&\\&&\ddots&\\&&&\sigma_n\end{bmatrix}V^T$ ，这个式子中 $V$ 即是 $A^TA$ 的特征向量矩阵而 $\varSigma^2$ 是其特征值矩阵，因此 $A$ 的奇异值实际是 $\sqrt{A^TA的特征值}$

同理，我们只想求 $U$ 时，用 $AA^T$ 消掉 $V$ 即可。

我们来计算 $A^TA=\begin{bmatrix}4&-3\\4&3\end{bmatrix}\begin{bmatrix}4&4\\-3&3\end{bmatrix}=\begin{bmatrix}25&7\\7&25\end{bmatrix}$ ，对于简单的矩阵可以直接观察得到特征向量 $A^TA\begin{bmatrix}1\\1\end{bmatrix}=32\begin{bmatrix}1\\1\end{bmatrix},\ A^TA\begin{bmatrix}1\\-1\end{bmatrix}=18\begin{bmatrix}1\\-1\end{bmatrix}$ ，化为单位向量有 $\sigma_1=32,\ v_1=\begin{bmatrix}\frac{1}{\sqrt{2}}\\\frac{1}{\sqrt{2}}\end{bmatrix},\ \sigma_2=18,\ v_2=\begin{bmatrix}\frac{1}{\sqrt{2}}\\-\frac{1}{\sqrt{2}}\end{bmatrix}$ 。

到目前为止，我们得到 $\begin{bmatrix}4&4\\-3&3\end{bmatrix}=\begin{bmatrix}u_?&u_?\\u_?&u_?\end{bmatrix}\begin{bmatrix}\sqrt{32}&0\\0&\sqrt{18}\end{bmatrix}\begin{bmatrix}\frac{1}{\sqrt{2}}&\frac{1}{\sqrt{2}}\\\frac{1}{\sqrt{2}}&-\frac{1}{\sqrt{2}}\end{bmatrix}$ ，接下来继续求解 $U$ 。

$AA^T=U\varSigma V^TV\varSigma^TU^T=U\varSigma^2U^T$ ，求出 $AA^T$ 的特征向量即可得到 $U$ ， $\begin{bmatrix}4&4\\-3&3\end{bmatrix}\begin{bmatrix}4&-3\\4&3\end{bmatrix}=\begin{bmatrix}32&0\\0&18\end{bmatrix}$ ，观察得 $AA^T\begin{bmatrix}1\\0\end{bmatrix}=32\begin{bmatrix}1\\0\end{bmatrix},\ AA^T\begin{bmatrix}0\\1\end{bmatrix}=18\begin{bmatrix}0\\1\end{bmatrix}$ 。但是我们不能直接使用这一组特征向量，因为式子 $AV=U\varSigma$ 明确告诉我们，一旦 $V$ 确定下来， $U$ 也必须取能够满足该式的向量，所以此处 $Av_2=\begin{bmatrix}0\\-\sqrt{18}\end{bmatrix}=u_2\sigma_2=\begin{bmatrix}0\\-1\end{bmatrix}\sqrt{18}$ ，则 $u_1=\begin{bmatrix}1\\0\end{bmatrix},\ u_2=\begin{bmatrix}0\\-1\end{bmatrix}$ 。（这个问题在本讲的官方笔记中有详细说明。）

最终，我们得到 $\begin{bmatrix}4&4\\-3&3\end{bmatrix}=\begin{bmatrix}1&0\\0&-1\end{bmatrix}\begin{bmatrix}\sqrt{32}&0\\0&\sqrt{18}\end{bmatrix}\begin{bmatrix}\frac{1}{\sqrt{2}}&\frac{1}{\sqrt{2}}\\\frac{1}{\sqrt{2}}&-\frac{1}{\sqrt{2}}\end{bmatrix}$ 。

再做一个例子， $A=\begin{bmatrix}4&3\\8&6\end{bmatrix}$ ，这是个秩一矩阵，有零空间。 $A$ 的行空间为 $\begin{bmatrix}4\\3\end{bmatrix}$ 的倍数， $A$ 的列空间为 $\begin{bmatrix}4\\8\end{bmatrix}$ 的倍数。

标准化向量得 $v_1=\begin{bmatrix}0.8\\0.6\end{bmatrix},\ u_1=\frac{1}{\sqrt{5}}\begin{bmatrix}1\\2\end{bmatrix}$ 。
$A^TA=\begin{bmatrix}4&8\\3&6\end{bmatrix}\begin{bmatrix}4&3\\8&6\end{bmatrix}=\begin{bmatrix}80&60\\60&45\end{bmatrix}$ ，由于 $A$ 是秩一矩阵，则 $A^TA$ 也不满秩，所以必有特征值 $0$ ，则另特征值一个由迹可知为 $125$
继续求零空间的特征向量，有 $v_2=\begin{bmatrix}0.6\\-0,8\end{bmatrix},\ u_1=\frac{1}{\sqrt{5}}\begin{bmatrix}2\\-1\end{bmatrix}$

最终得到 $\begin{bmatrix}4&3\\8&6\end{bmatrix}=\begin{bmatrix}1&\underline {2}\\2&\underline{-1}\end{bmatrix}\begin{bmatrix}\sqrt{125}&0\\0&\underline{0}\end{bmatrix}\begin{bmatrix}0.8&0.6\\\underline{0.6}&\underline{-0.8}\end{bmatrix}$ ，其中下划线部分都是与零空间相关的部分。

$v_1,\ \cdots,\ v_r$ 是行空间的标准正交基；
$u_1,\ \cdots,\ u_r$ 是列空间的标准正交基；
$v_{r+1},\ \cdots,\ v_n$ 是零空间的标准正交基；
$u_{r+1},\ \cdots,\ u_m$ 是左零空间的标准正交基。

通过将矩阵写为 $Av_i=\sigma_iu_i$ 形式，将矩阵对角化，向量 $u,\ v$ 之间没有耦合， $A$ 乘以每个 $v$ 都能得到一个相应的 $u$ 。

奇异值分解的意义

第三十一讲：线性变换及对应矩阵

如何判断一个操作是不是线性变换？线性变换需满足以下两个要求：

$T(v+w)=T(v)+T(w)\\ T(cv)=cT(v)$

即变换 $T$ 需要同时满足加法和数乘不变的性质。将两个性质合成一个式子为： $T (c v + d w) = c T (v) + d T (w)$

例1，二维空间中的投影操作， $\mathbb{R}^2\to\mathbb{R}^2$ ，它可以将某向量投影在一条特定直线上。检查一下投影操作，如果我们将向量长度翻倍，则其投影也翻倍；两向量相加后做投影与两向量做投影再相加结果一致。所以投影操作是线性变换。

“坏”例1，二维空间的平移操作，即平面平移：

%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np


fig = plt.figure()

sp1 = plt.subplot(221)
vectors_1 = np.array([[0,0,3,2],]) 
X_1, Y_1, U_1, V_1 = zip(*vectors_1)
plt.axhline(y=0, c='black')
plt.axvline(x=0, c='black')
sp1.quiver(X_1, Y_1, U_1, V_1, angles='xy', scale_units='xy', scale=1)
sp1.set_xlim(0, 10)
sp1.set_ylim(0, 5)
sp1.set_xlabel("before shifted")

sp2 = plt.subplot(222)
vector_2 = np.array([[0,0,3,2],
                     [3,2,2,0],
                     [0,0,5,2],
                     [0,0,10,4]]) 
X_2,Y_2,U_2,V_2 = zip(*vector_2)
plt.axhline(y=0, c='black')
plt.axvline(x=0, c='black')
sp2.quiver(X_2, Y_2, U_2, V_2, angles='xy', scale_units='xy', scale=1)
sp2.set_xlim(0, 10)
sp2.set_ylim(0, 5)
sp2.set_xlabel("shifted by horizontal 2 then double")

sp3 = plt.subplot(223)
vectors_1 = np.array([[0,0,6,4],]) 
X_1, Y_1, U_1, V_1 = zip(*vectors_1)
plt.axhline(y=0, c='black')
plt.axvline(x=0, c='black')
sp3.quiver(X_1, Y_1, U_1, V_1, angles='xy', scale_units='xy', scale=1)
sp3.set_xlim(0, 10)
sp3.set_ylim(0, 5)
sp3.set_xlabel("double the vector")

sp4 = plt.subplot(224)
vector_2 = np.array([[0,0,6,4],
                     [6,4,2,0],
                     [0,0,8,4]]) 
X_2,Y_2,U_2,V_2 = zip(*vector_2)
plt.axhline(y=0, c='black')
plt.axvline(x=0, c='black')
sp4.quiver(X_2, Y_2, U_2, V_2, angles='xy', scale_units='xy', scale=1)
sp4.set_xlim(0, 10)
sp4.set_ylim(0, 5)
sp4.set_xlabel("doubled vector shifted by horizontal 2")

plt.subplots_adjust(hspace=0.33)
plt.draw()

png

plt.close(fig)

比如，上图中向量长度翻倍，再做平移，明显与向量平移后再翻倍的结果不一致。

有时我们也可以用一个简单的特例判断线性变换，检查 $T(0)\stackrel{?}{=}0$ 。零向量平移后结果并不为零。

所以平面平移操作并不是线性变换。

“坏”例2，求模运算， $T(v)=\|v\|,\ T:\mathbb{R}^3\to\mathbb{R}^1$ ，这显然不是线性变换，比如如果我们将向量翻倍则其模翻倍，但如果我将向量翻倍取负，则其模依然翻倍。所以 $T(-v)\neq -T(v)$

例2，旋转 $45^\circ$ 操作， $T:\mathbb{R}^2\to\mathbb{R}^2$ ，也就是将平面内一个向量映射为平面内另一个向量。检查可知，如果向量翻倍，则旋转后同样翻倍；两个向量先旋转后相加，与这两个向量先相加后旋转得到的结果一样。

所以从上面的例子我们知道，投影与旋转都是线性变换。

例3，矩阵乘以向量， $T (v) = A v$ ，这也是一个（一系列）线性变换，不同的矩阵代表不同的线性变换。根据矩阵的运算法则有 $A(v+w)=A(v)+A(w),\ A(cv)=cAv$ 。比如取 $A=\begin{bmatrix}1&0\\0&-1\end{bmatrix}$ ，作用于平面上的向量 $v$ ，会导致 $v$ 的 $x$ 分量不变，而 $y$ 分量取反，也就是图像沿 $x$ 轴翻转。

线性变换的核心，就是该变换使用的相应的矩阵。

比如我们需要做一个线性变换，将一个三维向量降至二维， $T:\mathbb{R}^3\to\mathbb{R}^2$ ，则在 $T (v) = A v$ 中， $v\in\mathbb{R}^3,\ T(v)\in\mathbb{R}^2$ ，所以 $A$ 应当是一个 $2\times 3$ 矩阵。

如果我们希望知道线性变换 $T$ 对整个输入空间 $\mathbb{R}^n$ 的影响，我们可以找到空间的一组基 $v_1,\ v_2,\ \cdots,\ v_n$ ，检查 $T$ 对每一个基的影响 $T(v_1),\ T(v_2),\ \cdots,\ T(v_n)$ ，由于输入空间中的任意向量都满足：

$v=c_1v_1+c_2v_2+\cdots+c_nv_n\tag{1}$

所以我们可以根据 $T (v)$ 推出线性变换 $T$ 对空间内任意向量的影响，得到：

$T(v)=c_1T(v_1)+c_2T(v_2)+\cdots+c_nT(v_n)\tag{2}$

现在我们需要考虑，如何把一个与坐标无关的线性变换变成一个与坐标有关的矩阵呢？

在 $1$ 式中， $c_1,c_2,\cdots,c_n$ 就是向量 $v$ 在基 $v_1,v_2,\cdots,v_n$ 上的坐标，比如分解向量 $v=\begin{bmatrix}3\\2\\4\end{bmatrix}=3\begin{bmatrix}1\\0\\0\end{bmatrix}+2\begin{bmatrix}0\\1\\0\end{bmatrix}+4\begin{bmatrix}0\\0\\1\end{bmatrix}$ ，式子将向量 $v$ 分解在一组标准正交基 $\begin{bmatrix}1\\0\\0\end{bmatrix},\begin{bmatrix}0\\1\\0\end{bmatrix},\begin{bmatrix}0\\0\\1\end{bmatrix}$ 上。当然，我们也可以选用矩阵的特征向量作为基向量，基的选择是多种多样的。

我们打算构造一个矩阵 $A$ 用以表示线性变换 $T:\mathbb{R}^n\to\mathbb{R}^m$ 。我们需要两组基，一组用以表示输入向量，一组用以表示输出向量。令 $v_1,v_2,\cdots,v_n$ 为输入向量的基，这些向量来自 $\mathbb{R}^n$ ； $w_1,w_2,\cdots,w_m$ 作为输出向量的基，这些向量来自 $\mathbb{R}^m$ 。

我们用二维空间的投影矩阵作为例子：

fig = plt.figure()

vectors_1 = np.array([[0, 0, 3, 2],
                      [0, 0, -2, 3]]) 
X_1, Y_1, U_1, V_1 = zip(*vectors_1)
plt.axis('equal')
plt.axhline(y=0, c='black')
plt.axvline(x=0, c='black')
plt.quiver(X_1, Y_1, U_1, V_1, angles='xy', scale_units='xy', scale=1)
plt.plot([-6, 12], [-4, 8])
plt.annotate('$v_1=w_1$', xy=(1.5, 1), xytext=(10, -20), textcoords='offset points', size=14, arrowprops=dict(arrowstyle="->"))
plt.annotate('$v_2=w_2$', xy=(-1, 1.5), xytext=(-60, -20), textcoords='offset points', size=14, arrowprops=dict(arrowstyle="->"))
plt.annotate('project line', xy=(4.5, 3), xytext=(-90, 10), textcoords='offset points', size=14, arrowprops=dict(arrowstyle="->"))

ax = plt.gca()
ax.set_xlim(-5, 5)
ax.set_ylim(-4, 4)
ax.set_xlabel("Project Example")

plt.draw()

png

plt.close(fig)

从图中可以看到，设输入向量的基为 $v_1,v_2$ ， $v_1$ 就在投影上，而 $v_2$ 垂直于投影方向，输出向量的基为 $w_1,w_2$ ，而 $v_1=w_1,v_2=w_2$ 。那么如果输入向量为 $v=c_1v_1+c_2v_2$ ，则输出向量为 $T(v)=c_1v_1$ ，也就是线性变换去掉了法线方向的分量，输入坐标为 $c_1,c_2)$ ，输出坐标变为 $c_1,0)$ 。

找出这个矩阵并不困难， $A v = w$ ，则有 $\begin{bmatrix}1&0\\0&0\end{bmatrix}\begin{bmatrix}c_1\\c_2\end{bmatrix}=\begin{bmatrix}c_1\\0\end{bmatrix}$ 。

本例中我们选取的基极为特殊，一个沿投影方向，另一个沿投影法线方向，其实这两个向量都是投影矩阵的特征向量，所以我们得到的线性变换矩阵是一个对角矩阵，这是一组很好的基。

所以，如果我们选取投影矩阵的特征向量作为基，则得到的线性变换矩阵将是一个包含投影矩阵特征值的对角矩阵。

继续这个例子，我们不再选取特征向量作为基，而使用标准基 $v_1=\begin{bmatrix}1\\0\end{bmatrix},v_2=\begin{bmatrix}0\\1\end{bmatrix}$ ，我们继续使用相同的基作为输出空间的基，即 $v_1=w_1,v_2=w_2$ 。此时投影矩阵为 $P=\frac{aa^T}{a^Ta}=\begin{bmatrix}\frac{1}{2}&\frac{1}{2}\\\frac{1}{2}&\frac{1}{2}\end{bmatrix}$ ，这个矩阵明显没有上一个矩阵“好”，不过这个矩阵也是一个不错的对称矩阵。

总结通用的计算线性变换矩阵 $A$ 的方法：

确定输入空间的基 $v_1,v_2,\cdots,v_n$ ，确定输出空间的基 $w_1,w_2,\cdots,w_m$ ；
计算 $T(v_1)=a_{11}w_1+a_{21}w_2+\cdots+a_{m1}w_m$ ，求出的系数 $a_{i1}$ 就是矩阵 $A$ 的第一列；
继续计算 $T(v_2)=a_{12}w_1+a_{22}w_2+\cdots+a_{m2}w_m$ ，求出的系数 $a_{i2}$ 就是矩阵 $A$ 的第二列；
以此类推计算剩余向量直到 $v_n$ ；
最终得到矩阵 $A=\left[\begin{array}{c|c|c|c}a_{11}&a_{12}&\cdots&a_{1n}\\a_{21}&a_{22}&\cdots&a_{2n}\\\vdots&\vdots&\ddots&\vdots\\a_{m1}&a_{m2}&\cdots&a_{mn}\\\end{array}\right]$ 。

最后我们介绍一种不一样的线性变换， $T=\frac{\mathrm{d}}{\mathrm{d}x}$ ：

设输入为 $c_1+c_2x+c_3x^3$ ，基为 $1,x,x^2$ ；
则输出为导数： $c_2+2c_3x$ ，基为 $1, x$ ；

所以我们需要求一个从三维输入空间到二维输出空间的线性变换，目的是求导。求导运算其实是线性变换，因此我们只要知道少量函数的求导法则（如 $sin x, \cos x, e^x$ ），就能求出它们的线性组合的导数。

有 $A\begin{bmatrix}c_1\\c_2\\c_3\end{bmatrix}=\begin{bmatrix}c_2\\2c_3\end{bmatrix}$ ，从输入输出的空间维数可知， $A$ 是一个 $2\times 3$ 矩阵， $A=\begin{bmatrix}0&1&0\\0&0&2\end{bmatrix}$ 。

最后，矩阵的逆相当于对应线性变换的逆运算，矩阵的乘积相当于线性变换的乘积，实际上矩阵乘法也源于线性变换。

矩阵乘积的秩——从线性变换的角度理解
线性变换的值域和核
对于线性映射 $f:V\rightarrow U$ ，如果 $V$ 的基已经确定为 $\alpha_1,\alpha_2,\alpha_3,\cdots,\alpha_s$ ，且这些基在 $U$ 中的像 $\beta_1,\beta_2,\beta_3,\cdots,\beta_s$ 也确定，那么线性映射 $f$ 也已经可以确定，根据基的唯一表示性质即可说明
线性变换 $f$ $\iff$ 代表此变换的矩阵 $A$ ，只要找到线性变换对应的矩阵，其他都很好解决

线性变换的核子空间 $K (f)$ $\iff$ 矩阵 $A$ 的零空间

线性变换的值域空间 $R (f)$ $\iff$ 矩阵 $A$ 的列空间，矩阵 $A$ 列满秩 $\iff$ 矩阵 $A$ 的零空间只有零向量 $\iff$ $K(f)=\{0\}$ $\iff$ $f$ 是单射
矩阵 $A$ 列满秩 $\iff$ 矩阵 $A$ 的零空间只有零向量 $\iff$ $K(f)=\{0\}$ $\iff$ $f$ 是单射 $\Rightarrow$ $r (A B) = r (B), 即 f 是秩恒等映射$

线性变换把线性空间变换为线性空间，这两个空间的关系是，变换后的空间维度不会增加，只可能减小（ $r(AB)\le r(A),r(B)$ ）。矩阵的秩越大，认为矩阵包含的信息量越多，例如 $0$ 秩矩阵是零矩阵，无任何信息。满秩矩阵，列向量组是基，包含信息最多，因为基可以表示空间任意向量。行满秩矩阵，列向量组的极大无关组是基，包含信息也最多，但其包含冗余信息，因为除了基向量外，还有其它向量，这些向量就是冗余向量。从信息量角度看，线性变换可能会损失矩阵的信息，因为秩变小了，所以是有损变换。只有变换矩阵的列向量组是无关组时，才是无损变换（秩恒等映射）。再从一个角度看，矩阵 $A$ 是列满秩时，是无损变换，若此时矩阵 $A_{m \times n}$ 的行数 $m$ 大于等于列数 $n$ ，矩阵 $B_{n \times m}$ 列向量维度是 $n$ ，变换后矩阵 $C = A B$ 列向量维度是 $m$ ，维度提高了。所以线性变换只有升维变换才有可能保持秩不变，信息量不减小，降维变换可能会损失信息

寻找线性变换 $f$ 对应的矩阵 $A$ ：

找一组抽象基 $e_1,e_2,e_3,\cdots,e_s$
搭起架子： $(f(e_1),f(e_2),f(e_3),\cdots,f(e_s))=(e_1,e_2,e_3,\cdots,e_s)A$
根据线性组合的思路观察求得矩阵 $A$
求得 $A$ 列向量组的极大线性无关组后，对应到 $R(f)=L(f(e_1),f(e_2),f(e_3),\cdots,f(e_s))$ 中找到 $V$ 基向量对应的像即可表示出值域的基（例如假设求得的极大线性无关组为 $A$ 的 $col_1,col_2$ ，那么值域就是 $f(e_1),f(e_2)$ ，这里的 $e_1,e_2$ 都是抽象的向量，不一定指的是一组数字向量），得到 $A$ 的基础解系也可以表示出核子空间的基。实际上求得的 $A$ 的极大线性无关组或基础解系就是值域 $R (f)$ 和核子空间 $K (f)$ 的坐标表示

等距变换保持内积不变，长度不变（模），距离也不变。前两者在工程矩阵理论中已经证明。下面说明距离不变：
$d(\alpha,\beta)\stackrel{定义}{=}||\alpha -\beta||\overset{定义}{=}\sqrt{<\alpha-\beta,\alpha-\beta>}\overset{等距变换定义:变换前后内积不变}{=}\sqrt{<f(\alpha-\beta),f(\alpha-\beta)>}\overset{定义}{=}||f(\alpha-\beta))||\overset{线性变换的性质:可加性}{=}||f(\alpha)-f(\beta))||\overset{定义}{=}d(f(\alpha),f(\beta))$
等距变换都是可逆变换，其逆变换也是等距变换，对于有限维空间上的可逆变换（例如等距变换），满射 $\iff$ 单射