线性代数重要知识点和理论(上)

zhshuai1

已于 2024-07-28 21:35:32 修改

阅读量2.3k

点赞数

分类专栏：数学文章标签：线性代数 tv 深度学习

于 2022-01-03 09:42:09 首次发布

本文链接：https://blog.csdn.net/zhshuai1/article/details/122283855

版权

数学专栏收录该内容

8 篇文章 0 订阅

订阅专栏

矩阵基本运算

对于矩阵 $A_{m\times n}$ 和 $x$ ， $A x$ 表示对 $A$ 的各列，使用 $x$ 各个分量进行线性组合，即
$\begin{aligned}A_{m\times n}x&=[a_1,a_2,...,a_n]x\\ &=[a_1,a_2,...,a_n][x_1,x_2,...x_n]\\ &=x_1a_1+x_2a_2+...+x_na_n \end{aligned}$
另一个角度来看 $x^TA_{m\times n}$ 则是代表以x为权重的 $A$ 的各行的线性组合。
可以推广到矩阵的乘法： $C_{m\times k}=A_{m\times n}B_{n\times k}$ . 1)C的第i行，可以看做是以A的第i行为权重的B的各行的线性组合；2)C的第i列，可以看做是以B的第i列为权重的A的各行的线性组合；
所以如果对矩阵进行列交换或者列线性组合变换，则应该右乘矩阵或者向量；如果对矩阵进行行变换或者行线性组合，则应该左乘矩阵或者向量。但是这个不是绝对的(这个理解并不准确，出现这种情况的原因仅仅是因为存在一个等价行变换来表示列变换而已)，如果矩阵A是方阵，且可逆，则对于列变换，也可以通过左乘矩阵来实现。
例如，通过列变换， $A_{n\times n}$ 可以得到 $B_{n\times n}$ ，理论上应该是 $A_{n\times n}C_{n \times n}=B_{n\times n}$ (右乘矩阵C相当于对A各列进行线性组合)，但是因为A可逆，一定存在 $P_{n\times n}A_{n\times n}=B_{n\times n}$ ，因为
$\begin{aligned}B_{n\times n}&=B_{n\times n}A_{n\times n}^{-1}A_{n\times n}=(B_{n\times n}A_{n\times n}^{-1})A_{n\times n} \end{aligned}$
令 $P_{n\times n}=B_{n\times n}A_{n\times n}^{-1}$ ，则 $P_{n\times n}$ 即为所求。这个也很好理解，因为 $A$ 可逆，所以B的各行都可以使用 $A$ 的各行的线性组合的方式来表示。这个也可以非严格说明，如果 $A$ 可逆，则对于 $A_{n\times n}$ 的各行的任意一个线性组合得到的 $n\times n$ 矩阵，都存在一个各列的线性组合，使得两者等价。反之亦然。
$P$ 和 $C$ 的关系为 $P=BA^{-1}=ACA^{-1}$ .
$A是{m\times n}矩阵，x是{n\times 1}向量$ ， $A x$ 的几何解释：矩阵A将n维空间 $\Bbb R^n$ 的一个向量映射到m维空间 $\mathbb {R^m}$
$A^TA$ 是对称矩阵
证明容易：
证明一：
$A^TA)^T=A^T(A^T)^T=A^TA$ ， $\therefore A^TA$ 是对称矩阵
证明二：
$A=[a_1,a_2,...a_n]$ ，则
$\begin{aligned} A^TA&=\begin{bmatrix}a_1^T\\ a_2^T\\ ...\\ a_n^T\\ \end{bmatrix}\begin{bmatrix}a_1&a_2&...&a_n\end{bmatrix}\\ &=\begin{bmatrix}a_1^Ta_1&a_1^Ta_2&...&a_1^Ta_n\\ a_2^Ta_1&a_2^Ta_2&...a_2^Ta_n\\ ...\\a_n^Ta_1&a_n^Ta_2&...&a_n^Ta_n\end{bmatrix} \end{aligned}$
对于矩阵 $A^TA$ 第i行j列元素都是标量，标量和自己转置是相等的 $A^TA)_{ij}=a_i^Ta_j=(a_i^Ta_j)^T=a_j^Ta_i=(A^TA)_{ji}$ ，所以 $A^TA$ 是对称矩阵。
若矩阵 $A$ 可逆，其逆矩阵为 $C$ ( $C A = A C = I$ )，则C由A唯一确定。
证明：使用反证法。若逆矩阵不唯一，不妨设为B，则 $B = B I = B (A C) = (B A) C = C$ ，所以BC为同一矩阵。
矩阵逆的定义是 $A C = C A = I$ 。有没有可能 $但是CA\ne I$ ？实际上若AC都是方阵， $A C = I$ ，则 $C A = I$
证明：~~实际上没有找到比较好的证明方式，暂略。~~
若方阵A个各行线性相关，则各列也线性相关；反之亦然。证明方法：若各行线性相关则， $d e t (A) = 0$ , 而 $det(A)=det(A^T)=0$ ，所以 $A^T$ 各行线性相关，即A各列线性相关。如何通过对初等行列变换的分析来证明？

LU分解

LU分解的求取： $A_{m\times n}=L_{m\times m}\cdot U_{m\times n}$ ，其中L是下三角矩阵且对角线元素都是1，U是上三角矩阵。
先看看做法 $[A\ I]$ 可以通过行初等变换得到 $U\ L^{-1}]$
原因是什么呢？对A做一次行初等变换，相当于对A左乘矩阵 $P_i$ ，经过行初等变换之后，把A变换成上三角矩阵之后，做的变换相当于 $[(\prod\limits_{i=1}^{n} {P_i})A \ \ \ \ (\prod\limits_{i=1}^{n} {P_i}I]$ ，令 $L^{-1}=(\prod\limits_{i=1}^{n} {P_i})$ ，则有 $L^{-1}A\ \ \ \ L^{-1}]$ ，也即 $U\ \ L^{-1}]$ ，故经过行初等变换之后，得到的上三角矩阵为 $U$ ，此时单位阵 $I$ 已经变换成了 $L^{-1}$ 对其求逆可得 $L$ .
$L^{-1}A=U\implies A=LU$
不是所有的矩阵都有LU分解，比如 $a_{11}=0$ 的情况，此时可以通过交换两行的方式得到LU分解，此时算是PLU分解，其中P是置换矩阵(左乘，即是对行进行变换)；LU分解不必是针对方阵；
PLU分解应用：1) 求解方程组 $Ax=b\implies PLUx=b，令y=Ux，再求x$ ，这种做法比高斯消去时间复杂度要低，但是求取PLU分解需要使用高斯消去，这种做法的主要优势在于求取多个 $(x, b)$ 时，相当于对运算做了预处理，提高了效率；2)计算行列式，根据顺序主子式求法，行列式的计算时间复杂 $F (n) = n F (n - 1)$ ，阶乘复杂度，但是通过行初等变换，得到两个三角矩阵，行列式为对角线元素乘积(仍然可以通过顺序主子式来算，只不过因为0非常多，退化成了对角线元素乘积)，时间复杂度 $n!\to n^3$ ；3)矩阵求逆： $A=LU\to A^{-1}=U^{-1}L^{-1}$ 优于高斯消去。据说，numpy/scipy求逆和行列式就是LU分解，导致即使看起来行列式应该是整数，他也有个-15左右的误差。

行列式

定义。行列式的定义有很多种。
定义一(递归)：当 $n\ge 2$ ， $\times n$ 矩阵 $A=[a_{ij}]$ 的行列式是形如 $±a1j∣A1j∣ \pm a_{1j}|A_{1j}|$ 的 $n$ 项的和，即
$|A|=\sum\limits_{j=1}^n(-1)^{i+j} a_{ij}|A_{ij}|$ ， $A_{ij}$ 是除去第i行，第j列之后的子矩阵。
定义二(求和)：
$|A|=\sum\limits_{k=1}^{n!}(-1)^ka_{1k_1}a_{1k_2}...a_{1k_n}$
其中 $k_1,k_2,...,k_n$ 是 $1, 2, ..., n$ 的一个组合， $k$ 是 $1, 2, ..., n$ 为了得到 $k_1,k_2,...,k_n$ 锁发生的元素交换的次数。例如 $n = 4$ , $k_1,k_2,...,k_n=2,3,4,1$ ，可以通过3次交换得到，故 $k = 3$ ，实际定义二可以通过定义一展开得到。通过这个公式可以看到，通过定义求行列式的时间复杂度是 $n!$ .
若 $A$ 为三角阵，则 $∣ A ∣$ 为对角线上元素的乘积。通过定义，容易得到。
行列式的性质：若 $A$ 是方阵

若 $A$ 的某一行的倍数加到另一行得到矩阵 $B$ ，则 $∣ B ∣ = ∣ A ∣$ ;
若 $A$ 的两行互换得到矩阵 $B$ ,则 $∣ B ∣ = - ∣ A ∣$ ;
若 $A$ 的某一行乘r得到矩阵 $B$ ,则 $∣ B ∣ = r ∣ A ∣$ ;
上述都换成列也成立；
下面先给出数学归纳法的证明：
上述变换都可以通过一个左乘一个行变换矩阵 $P$ 的方式来得到 $B = P A$ ：
$\begin{cases} -1(行交换)\\ 1(行倍加)\\ r(行倍乘) \end{cases}$
若上述定理对k阶矩阵成立 $|B_{ij}|=\alpha |A_{ij}|$ ，则对于k+1阶矩阵，选取一个没有变换的行i进行余因子展开
$\begin{aligned} |B|&=\sum_{j=1}^{j=k+1}(-1)^{i+j}b_{ij}|B_{ij}|\\ &=\sum_{j=1}^{j=k+1}(-1)^{i+j}a_{ij}\alpha|A_{ij}| \\ &(因为改行没有发生变化，故b_{ij}=a_{ij})\\ &(因为B_{ij}是B的子矩阵，所有B_{ij}的变换都是相同的，所以任意|B_{ij}|=\alpha |A_{ij}|)\\ &=\alpha|A| \end{aligned}$
上述可以使用数学归纳法来证明，但是不够直观。比如第一条，实际上有点不可思议，因为如果 $A$ 元素全为正，因为A的某行元素变大了，那行列式也应该变大，但是并没有。
对于部分结论，可以有个更直观点的理解。
对于第一条，假如是把第i行倍乘之后加到了第j行上，可以根据定义：
$\begin{aligned} |A|&=\sum_{k=1}^{k=n}(-1)^{j+k}a_{jk}|A_{jk}| \\ |B|&=\sum_{k=1}^{k=n}(-1)^{j+k}b_{jk}|B_{jk}|\\ &=\sum_{k=1}^{k=n}(-1)^{j+k}b_{jk}|A_{jk}|(因为是按照j行展开，AB只有j行不同，故余因子展开式除j行外都是一样的) \\ &=\sum_{k=1}^{k=n}(-1)^{j+k}a_{jk}|A_{jk}|+\sum_{k=1}^{k=n}(-1)^{j+k}ra_{ik}|A_{jk}|\\ &=|A|+\sum_{k=1}^{k=n}(-1)^{j+k}ra_{ik}|A_{jk}| \end{aligned}$
观察第二项不难发现，其等价于 $A$ 的第j行替换成第i行倍乘r之后的行列式，因为此时第i行和第j行线性相关，所以该值为0.这里需要注意的是，这里并不是利用了|A+B|=|A|+|B|(对于大多数矩阵，这不成立)，只是利用定义展开后恰好发现是两个矩阵行列式之和。
$\therefore |B|=|A|$

对于第三条，根据定义，按照倍乘的行进行展开可以直接得出，不再描述。

$A^T|=|A|$
$A$ 是可逆的 $\iff |A|\ne 0$
$A, B$ 均为 $\times n$ 方阵，则 $∣ A B ∣ = ∣ A ∣∣ B ∣$
证明一：若 $A, B$ 其中一个不可逆，则两边都是0，自然成立。对于 $A, B$ 都可逆的情况。对 $A,B^T$ 进行PLU分解，得 $A=P_1L_1U_1, B^T=P_2L_2U_2$ 。
$\begin{aligned} |AB|&=|AB^{TT}|=|P_1L_1U_1(P_2L_2U_2)^T|\\ &=|P_1L_1U_1U_2^TL_2^TP_2^T| \end{aligned}\\ \therefore |P_1^{-1}L_1^{-1}ABL_2^{-1}P_2^{-1}|=|U_1U_2|$
因为 $A$ 每发生一次行交换， $B$ 每发生一次列交换，等价于AB也发生一次交换，正好和 $P_1,P_2$ 的-1重数抵消
通过以上变换，将|AB|变成了上三角矩阵相乘，结果仍是上三角矩阵，且行列式为对角线元素乘积。而变换过程只用了行倍加变换和行交换，不改变矩阵的行列式的值(-1重数已经抵消掉)，而 $U_1,U_2$ 也恰好是矩阵 $A, B$ 的行列式，故 $∣ A B ∣ = ∣ A ∣∣ B ∣$
证明二：对于可逆的情况
$\begin{aligned} AB&=(\prod_{i=n}^{i=1}P_i)B\\ |AB|&=\left|(\prod_{i=n}^{i=1}P_i)B\right|\\ &=(\prod_{i=n}^{i=1}\alpha_i)|B|\\ \end{aligned}$
而 $(\prod\limits_{i=n}^{i=1}\alpha_i)=|A|$
理解是： $\alpha_i$ 是做行初等变换的系数(-1交换, 1行倍加,r单行倍乘)，AB可以看做是B矩阵经过一系列行初等变换得到，其中每一步行列式都可能会发生变化，而最后的结果是各个系数的乘积。

特征值和特征向量

对于 $n\times n$ 矩阵 $A$ 和 $B$ ，如果存在可逆矩阵 $P$ ，使得 $P^{-1}AP=B$ ，则称 $A$ 相似于 $B$ . 若令 $Q=P^{-1}$ ，则 $Q^{-1}BQ=A$ ，即 $B$ 也相似于 $A$ . 一般简单说 $A$ 和 $B$ 相似. 若 $A$ 和 $B$ 相似，则 $A$ 和 $B$ 具有相同的特征值。
证明一: 若 $\lambda$ 是 $A$ 的一个特征值，则存在 $v$ ，使得 $Av=\lambda v$
$Av=Q^{-1}BQv=\lambda v \implies\\ BQv=Q\lambda v=\lambda Qv$
令 $w = Q v$ ，则 $Bw=\lambda w$ ，因此 $\lambda$ 是 $B$ 的特征值， $w = Q v$ 是对应的 $B$ 的特征向量。
上述证明还要求 $w\ne \bold 0$ ，这个也是容易得到的。可以使用反证法：
$w = Q v$ 表示的是以 $v$ 的各个分量为权重的 $Q$ 的各列的线性组合，因为 $Q$ 可逆，所以Q各列线性无关。如果 $w=\bold 0$ ，只能是 $v$ 的各个分量都为0，即 $v=\bold 0$ . 这和 $v$ 是 $A$ 的特征向量矛盾。
证明二：若 $\lambda$ 是 $A$ 的一个特征值，则 $|A-\lambda I|=0$ .
$\begin{aligned} |B-\lambda I|&= |P^{-1}AP-\lambda I|\\ &=|P^{-1}AP-\lambda P^{-1}IP|\\ &=|P^{-1}(A-\lambda I)P| \\ &=|P^{-1}|\cdot|(A-\lambda I)|\cdot|P| =0 \end{aligned}$
故 $\lambda$ 是 $B$ 的特征值。
若 $\lambda$ 是 $A$ 的特征值，则 $\lambda^2$ 是 $A^2$ 的特征值。
证明容易: $\because Av=\lambda v\\ \therefore A^2v=AAv=A(Av)=A\lambda v=\lambda Av=\lambda^2v$
方阵特征值分解 $A=P^{-1}DP$
$Av_i=\lambda_iv_i$ ，如果把各个特征向量 $v_i(列向量)$ 放在一起，则
$A[v_1,v_2,...v_n]=[\lambda_1v_1,\lambda_2v_2,...\lambda_nv_n]$ ，可见右边矩阵是各个特征向量(列向量)的线性组合，需要右乘权重矩阵，得到
$[\lambda_1v_1,\lambda_2v_2,...\lambda_nv_n]= [v_1,v_2,...v_n]\begin{bmatrix}\lambda_1&0&...&0\\0&\lambda_2&...&0\\...\\0&0&...&\lambda_n\end{bmatrix}$
如果A的各个特征向量组成的矩阵可逆，则有
$\begin{aligned} A&=A[v_1,v_2,...v_n][v_1,v_2,...v_n]^{-1}\\ &=[\lambda_1v_1,\lambda_2v_2,...\lambda_nv_n][v_1,v_2,...v_n]^{-1} \\ &=A[v_1,v_2,...v_n]\begin{bmatrix}\lambda_1&0&...&0\\0&\lambda_2&...&0\\...\\0&0&...&\lambda_n\end{bmatrix}[v_1,v_2,...v_n]^{-1} \end{aligned}$
$A$ 是 $n\times n$ 矩阵，为了更好的理解 $A\bold x$ 对 $\bold x$ 的作用可以这么看:假设 $\bold {v_1},\bold {v_2},...,\bold {v_n}$ 是 $A$ 的特征向量，且他们线性无关，则 $\bold x=c_1\bold {v_1}+c_2\bold {v_2}+...+c_n\bold {v_n}$ ，则
$A\bold x=c_1A\bold {v_1}+c_2A\bold {v_2}+...+c_n\bold {v_n}\\ =c_1\lambda_1\bold {v_1}+c_2\lambda_2\bold {v_2}+...+c_n\lambda_n\bold {v_n}$
所以 $A\bold x$ 相当于 $A$ 对 $\bold x$ 在 $A$ 的各个特征向量的方向上进行尺度变换。这个也可以解释，为什么 $\lim\limits_{n\to \infin} A^nx$ 是收敛还是发散取决于 $A$ 最大的特征值。
复数特征值，代表对特征向量进行旋转，这个旋转不是在 $\Bbb R^n$ 空间上的旋转，而是在复数空间的旋转。这个实际上很难理解，原因在于本来特征 $\bold v$ 就是一个高维的了，结果其每个分量还是复数。
Q:

是不是每个方阵都会有n的线性无关的特征向量？
不是，约当块就不是。
证明：构造一个约当块A
$A_{i,j}=\begin{cases} a(i=j)\\ 1(j=i+1)\\ 0(other) \end{cases}$
例如 $A=\begin{bmatrix} a&0&0&0&0&0\\ 1&a&0&0&0&0\\ 0&1&a&0&0&0\\ 0&0&1&a&0&0\\ 0&0&0&1&a&0\\ 0&0&0&0&1&a\\ \end{bmatrix}$
证明过程后续补充。

Q: 初等行/列变换对特征值影响？
一般来说特征值和特征向量都会变，但是会变大还是变小？方向有什么变化？

正交性

如果 $A$ 是对称矩阵， $v_i, v_j$ 是不同特征空间的两个特征向量，则 $v_i, v_j$ 是正交的。
证明容易:
$\begin{aligned} \lambda_iv_i\cdot v_j&=(\lambda v_i)^T v_j&=(Av_i)^Tv_j \\ &=(v_i^TA^T)v_j&=v_i^T(Av_j) \\ &=v_i^T\lambda_j v_j \\ &=\lambda_jv_i^Tv_j&=\lambda_jv_i\cdot v_j \end{aligned} \\ \therefore (\lambda_i-\lambda_j)v_i\cdot v_j=0，而\lambda_i\ne\lambda_j，故v_i\cdot v_j=0$
如果 $P=[\bold{u_1},\bold{u_2},...\bold{u_n}]$ ， $\bold{u_i}$ 是 $\Bbb R^n$ 上的单位正交基，则有 $P^{-1}=P^T$ .
$\begin{aligned} P^TP&=[\bold{u_1}^T;\bold{u_2}^T;...\bold{u_n}^T]\cdot [\bold{u_1},\bold{u_2},...\bold{u_n}] \\ &=\begin{bmatrix} \bold{u_1}^T\bold{u_1}& \bold{u_1}^T\bold{u_2}&...&\bold{u_1}^T\bold{u_n}\\ \bold{u_2}^T\bold{u_1}& \bold{u_2}^T\bold{u_2}&...&\bold{u_2}^T\bold{u_n}\\ ...\\ \bold{u_n}^T\bold{u_1}& \bold{u_n}^T\bold{u_2}&...&\bold{u_n}^T\bold{u_n} \end{bmatrix} \end{aligned}$
因为P各列是单位正交的，所以，只有对角线上的数值为1(单位)，非对角线乘积为0(正交)，故 $P^TP$ 为单位阵， $P^{-1}=P^T$
对于矩阵 $A$ 和向量 $v$ ， $A v$ 可以理解为使用矩阵 $A$ 对向量 $v$ 进行变换(伸缩和旋转)。如果对向量v进行多次变化，会是什么样呢？
思路一：
$A...(A(Av))=A^nv \\ =A^n(v_{\to}+v_{\perp})$
等价于使用 $A^n$ 对向量 $v$ 进行变换。前面已经证明，如果 $\lambda$ 是 $A$ 的特征值，则 $\lambda^n$ 是 $A^n$ 的特征值。为了利用特征值和特征向量的特点，我们对 $v$ 进行分解，沿着 $A$ 的特征值最大的特征向量和垂直于这个方向。那么因为n次方之后，对特征值的伸缩非常大，所以使用 $A^n$ 对 $v$ 进行变换的话，对特征向量方向的分量影响非常显著。对于除最大值之外的特征向量的影响不明显。
思路二：如果每次乘完之后都把特征向量的分量给去掉，结果是怎么样呢？
向量正交 $\bold u,\bold v$ 等价于内积为0
证明1: 从代数上来说 $\bold u\cdot\bold v= \bold u^T \bold v=||\bold u||\ ||\bold v||\ cos\theta$ ，其中 $\theta$ 是 $\bold u,\bold v$ 的夹角，若 $\bold u,\bold v$ 垂直，则 $cos\theta=0$ ，故 $\bold u^T \bold v=0$
证明2: 从几何上来说， $\bold u,\bold v$ 若垂直，则根据中垂线定理 $\bold v$ 到 $\bold u$ 和 $-\bold u$ 的距离相等，即
$\begin{aligned}||\bold v-\bold u||&=||\bold v-(-\bold u)|| \implies \\ ||\bold v-\bold u||^2&=||\bold v+\bold u||^2 \implies\\ ||\bold u||^2+||\bold v||^2-2\bold u\bold v &= ||\bold u||^2+||\bold v||^2+2\bold u\bold v \implies\\ 4\bold u\bold v &=0\implies\\ \bold u\bold v &=0 \end{aligned}$
正交投影和相关性质
正交补定义： $\bold {u_1},\bold {u_2},...,\bold {u_n}$ 空间 $\Bbb R^n$ 的一组正交基，对于 $W=Span\{\bold {u_1},\bold {u_2},...,\bold {u_i}\}$ ， $W$ 是 $\Bbb R^n$ 的有一个子空间，如果向量 $z$ 和 $W$ 中的任意一个向量都垂直，与子空间 $W$ 正交的向量的全体组成的集合成为 $W$ 的正交补，记作 $W^{\bot}$ .
定理：若 $A是m\times n$ 矩阵，那么 $A$ 的行向量空间的正交补是 $A$ 的零空间，且 $A$ 的列向量空间的正交补是 $A^T$ 的零空间：
$(Row\ A)^{\bot}=Nul\ A, (Col\ A)^{\bot}=Nul\ A^T$
若 $x是Nul\ A$ 的向量，那么 $x$ 与 $A$ 的每一行都正交(将行作为 $\Bbb R^n$ 空间中的向量)，由于 $A$ 的行生成 $A$ 的行空间，向量 $x$ 与 $Row\ A$ 正交。反之，如果 $x$ 与 $R o w A$ 正交，则 $x$ 与 $A$ 的每一行正交，因此 $A x = 0$ .如果将 $A$ 换成 $A^T$ ，利用 $Row\ A^T=Col A$ ，可以证明结论。
若向量 $v\in W, v \in W^{\bot}$ ，则 $v = 0$ 。
证明：因为 $W^{\bot}$ 中任意一个向量都和 $W$ 中任意一个向量正交，故 $v\cdot v=0\implies v=0$
正交投影定义：对 $\Bbb R^n$ 中给出的非零向量 $\bold u$ ，考虑 $\Bbb R^n$ 中的一个向量 $\bold y$ 分解为两个向量和的问题，一个向量是向量 $\bold u$ 的数量乘积，另一个向量与 $\bold u$ 垂直。我们可以写成 $\bold y=\bold {\hat y}+\bold z$ ，其中 $\bold {\hat y}=\alpha \bold u$ ， $\alpha$ 是一个数， $\bold z$ 是一个垂直于 $\bold u$ 的向量。
下面给出 $\alpha, \bold{\hat y}$ 的计算方法(实际上这个从勾股定理也很容易得到)。
$\begin{aligned} 0=\bold{\hat y}\bold z&=\alpha\bold u\cdot(\bold y-\alpha\bold u)\\ &=\alpha\bold u\cdot\bold y-\alpha^2\bold u\cdot\bold u\implies \\ \end{aligned}\\ \therefore\alpha=\frac {\bold u\cdot\bold y}{\bold u\cdot\bold u},\ \ \bold{\hat y}=\alpha\bold u=\frac {\bold u\cdot\bold y}{\bold u\cdot\bold u}\bold u$
前面有对称方阵的各个特征向量正交的定理。对此做一个推广( $U$ 不限制是方阵，所以，U的各列不一定能生成 $\Bbb R^n$ ，有可能只是一个子空间)：一个 $m\times n$ 的矩阵 $U$ ， $U$ 的各列是单位正交基的充要条件是 $U^TU=I$ ，证明方法类似。
此处要注意因为 $U$ 是 $m\times n$ 的，并非方阵， $U^TU$ 和 $UU^T$ 并不等价，如果 $U$ 的各个列向量线性无关，则意味着 $m\ge n$ 。当 $m\gt n$ ，因为行向量的个数大于行向量的维数，其各行向量必定线性相关，也就不存在 $UU^T=I$
由此设U是具有单位正交列的 $m\times n$ 矩阵，可以得到一些推论
$\begin{aligned} &a) ||Ux||=||x||;\\ &b)Ux\cdot Uy=x\cdot y;\\ &c)Ux\cdot Uy=0\iff x\cdot y=0;\\ &d)||Ux-Uy||=||x-y||;(保距映射) \end{aligned}$
证明a):
$\begin{aligned} ||Ux||^2&=(Ux)\cdot(Ux)\\ &=(Ux)^T(Ux)\\ &=x^TU^TUx\\ &=x^Tx=||x||^2 \end{aligned}\\ \therefore ||Ux||=||x||$

这个定理有点意思。 $Ux=[\bold{u_1} \bold{u_2} ... \bold{u_n}]\cdot[x_1,x_2,...x_n]=\sum (x_i\bold u_i)$ ，表示以x各个分量为权重的U的各列的线性组合(因为是右乘x)，其中的每个 $||\bold{u_i}||$ 都是1，但是不同 $u_i$ 同列的分量可能差别很大，但是最终的模还是 $x$ 的模，就很奇妙。诶，举了个具体数值的例子 $U=\begin{bmatrix}1/3&0\\ 2/3&-\sqrt 2/2\\ 2/3&\sqrt 2/2\end{bmatrix}$ ，瞬间就更明白了。
$\begin{aligned} Ux&=[\bold {u_1} \bold {u_2} ... \bold {u_n}]\cdot[x_1,x_2,...x_n]\\ &=x_1\bold u_1+x_2\bold u_2+...+x_n\bold u_n\\ \end{aligned}\\ \therefore ||Ux||^2=\sum_{i=1}^n x_i^2\bold u_i^T\bold u_i+\sum_{i=0}^n \sum_{j=i+1}^n 2x_ix_j\bold u_i^T\bold u_j$
因为 $\bold u_i$ 是单位正交基，所以
$\bold {u_i}^T\bold{u_j}=\begin{cases} 0(i\ne j)\\ 1(i=j) \end{cases}$
$\therefore ||Ux||^2=\sum_{i=1}^n x_i^2=||x||^2$
第一项的值为 $||\bold{x}||^2$ 依赖 $\bold{u_i}$ 是单位向量；第二项为0依赖 $\bold{u_i}, \bold{u_j}$ 两两正交
以上也是另外一种证明。
为什么是各列是单位正交基而不是各行？因为是右乘向量 $\bold{x}$ ；如果是左乘 $\bold{x}$ ，则需要行向量是单位正交基。
提供一种几何上的说明：向量 $\bold{x}=[x_1\ x_2]^T$ 可以看做是坐标系标准正交基的线性组合，它在 $i\gt n$ 的维度上分量是0，即 $\bold{x_m}=I_{m\times n}\bold{x}$ ，而 $U\bold{x}$ 则是选择了另外一组单位正交基来表示 $\bold{x}$ ，这种情况下，如果还是在坐标系标准基的角度来看，仅是将 $\bold{x}$ 做了旋转，因为两组坐标系都是正交，因此各个分量上旋转的角度是相等的，因此其模长没有发生变化。
证明b):
$\begin{aligned} Ux\cdot Uy=(Ux)^T(Uy)=x^TU^TUy=x\cdot y \end{aligned}$

若U是方阵，U的各列单位正交，则U的各行也单位正交。
证明：因为 $U$ 的各列单位正交， $U^TU=U^{-1}U=I=UU^{-1}=UU^T$ .
通常情况使用向量表示矩阵，一般会分解成列向量的形式，但是这里，以下的向量都是行向量。
设 $U=\begin{bmatrix}u_1\\u_2\\...\\u_n\end{bmatrix}$ ，
$\begin{aligned} UU^T&=\begin{bmatrix}u_1\\u_2\\...\\u_n\end{bmatrix}\cdot \begin{bmatrix}u_1&u_2&...&u_n\end{bmatrix}\\ &=\begin{bmatrix}u_1u_1^T&u_1u_2^T&...&u_1u_n^T\\u_2u_1^T&u_2u_2^T&...&u_2u_n^T\\...\\u_nu_1^T&u_nu_2^T&...&u_nu_n^T\end{bmatrix}\\ &=\begin{bmatrix}1&0&...&0\\0&1&...&0\\...\\0&0&...&1\end{bmatrix}\end{aligned}$
对于 $\bold u_i^Tu_j=\begin{cases} 0(i\ne j)\\ 1(i=j) \end{cases}$ ，所以 $U$ 的各行也是单位正交的。
Q:

正交投影和子空间

对于给定向量 $y\in \Bbb R^n$ 和 $\Bbb R^n$ 子空间 $W$ ，存在 $\hat y\in W$ ，1)W中有唯一向量 $\hat y$ ，使得 $y-\hat y$ 和W正交，即 $y-\hat y \in W^{\bot}$ ，可通过正交分解定理求得; 2) $\hat y$ 是W中最接近 $y$ 的向量(最佳逼近定理)。
QR分解(全称是啥找了半天也没找到)：对于各列线性无关的矩阵 $A_{m\times n}$ ，那么A可以分解成 $A = QR$ ，其中Q是 $m\times n$ ，其各列构成 $C o l A$ 的一组单位正交基，R是一个上三角矩阵，且对角线上元素为正。通过格拉姆-施密特方法或者正交分解定理。描述一下格拉姆-施密特方法可以得到。
备注：也有另外有一种QR分解 $A_{m\times n}=Q_{m\times m}R_{m\times n}$
设 $A=[a_1,a_2,...a_n]$ ， $a_i$ 线性无关。设 $Q=[q_1,q_2,...,q_n]$
$\begin{aligned} q_1&={a_1}\\ q_2&=a_2-a_2^Ta_1/||a_1||^2a_1\\ q_3&=a_3-a_3^Ta_1/||a_1||^2a_1-a_3^Ta_2/||a_2||^2a_2\\ ...\\ q_n&=a_n-a_n^Ta_1/||a_1||^2a_1-...-a_n^Ta_{n-1}/||a_{n-1}||^2a_{n-1} \end{aligned}$
根据定义 $A = QR$ 实际上A是Q各列的线性组合，其中各列 $a_i$ 只和Q的各列 $q_j(0\le j< i)$ ，故而R是一个上三角矩阵，如果对角线上某个元素为负值，可以调整Q的对应的列的方向，使其为正。导致R是上三角矩阵的原因是求A的列空间的正交基采用的是格拉姆-施密特方法，格拉姆-施密特方法直接导致 $A$ 的第i列 $\bold{a_j}$ 只和生成的正交基中的前 $j$ 个相关，存在不为0系数。

最小二乘法

最小二乘法是在样本多余维度情况下，方程 $A\bold{x}=\bold{b}$ 没有解，但是可以求取一个误差最小的近似解，使得 $||A\bold{x}-\bold{b}||$ 最小。一般 $A$ 是 $m\times n (m\gt n)$ 矩阵.
问题就是这么个问题，但是对于这个问题的解法，从不同的思路出发，就有不同的解法。
方法一：通用解法，将 $\bold{x}=[x_1\ x_2...x_n]$ 带入 $||A\bold{x}-\bold{b}||^2$ ，使用拉格朗日乘数法，求各变量一阶偏导，然后联立求解方程。适合手算小规模矩阵情况，即使对 $\bold{x}$ 附加额外约束条件也能求解。
方法二：因为方程往往无解，所以 $\bold{b}$ 不在 $A\bold{x}$ 这个子空间中，那 $||A\bold{x}-\bold{b}||$ 最小，那 $\bold{b}$ 到在 $A\bold{x}$ 子空间投影上的距离是最短的。此时，假设 $\bold{b}$ 在 $A\bold{x}$ 的投影是 $A\hat {\bold{x}}$ ，则有 $A\hat {\bold{x}}$ 和 $\bold{b}-A\hat {\bold{x}}$ 正交，于是有
$A\hat {\bold{x}}\cdot(\bold{b}-A\hat {\bold{x}})=(A\hat {\bold{x}})^T(\bold{b}-A\hat {\bold{x}})=\hat {\bold{x}}^TA^T\bold{b}-\hat {\bold{x}}^TA^TA\hat {\bold{x}}=0$ ，然而这样推导却丢失了很多约束条件，最终无法取得正确结果。其原因就是对正交性的约束， $\bold{b}-A\hat {\bold{x}}$ 不仅正交于 $A\hat {\bold{x}}$ ，还需要正交于整个 $A$ 的列空间，也就是 $A$ 的各个列向量，于是修改约束条件得到：
$A^T(\bold{b}-A\hat {\bold{x}})=A^T\bold{b}-A^TA\hat {\bold{x}}=0\implies A^TA\hat {\bold{x}}=A^T\bold{b}$ ，此时可以求得 $A\bold{x}=\bold{b}$ 的最小二乘解。
在这里插入图片描述
方法三：按照上述思路，还有其他解法，类似的还是先求 $A\hat{\bold{x}}$ ，但是可以使用格拉姆-施密特方法，先求 $A$ 的各列组成的一组单位正交基 $U=[\bold{u_1}\ \bold{u_2}...\bold{u_r}]$ ，则 $\bold{b}=\hat{\bold{b}}+\sum\limits_r\alpha_i\bold{u_i}$ ，则 $A\hat{\bold{x}}=\bold{b}-\hat{\bold{b}}$ 是最小二乘解。
此时 $A\hat{\bold{x}}=\sum_r(\bold{b}\cdot\bold{u_i})\bold{u_i}=UU^T\bold{b}$