线代[3]｜从增广矩阵漫谈矩阵转置的代数与几何意义——四个子空间的基底相互转化-CSDN博客

本文链接：https://blog.csdn.net/weixin_46959681/article/details/105739995

本文探讨线性方程组的解集与增广矩阵，通过QR分解重构矩阵，并解析转置在向量空间的作用。以MIT习题为线索，阐述矩阵数值计算背后的向量空间变化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原创首发，转载请注明出处（CSDN：汉密士20240101）。

文章目录

一、前言

该篇文章以非齐次线性方程组为例题引出增广矩阵(A,b)的解集，配合矩阵的QR分解对增广矩阵(A,b)重新构造。在转置方面从代数的角度切入，但这个角度比较浅显。我们需要真正明白的是转置在向量空间层面发挥了什么作用。 重要提醒，在阅读该文章之前，必须将MIT线性代数习题公开课第11题的习题观看完毕并消化理解，这是串联所有知识点的脉络，其余只是模块组成。

二、增广矩阵(Augmented matrix)

e.g.1 求出非齐次方程组的通解 $\left\{\begin{array}{c}x_1+2x_2=3\\2x_1+4x_2=6\\ \end{array}\right.$

解：特解

$X^*=\begin{pmatrix}1\\1\\ \end{pmatrix}$

零解
$N(A)=\lbrace c\begin{pmatrix}-2\\1\\ \end{pmatrix} |c\in R\rbrace$

故原方程组解集为
$S(A,b)=\lbrace \begin{pmatrix}1\\1\\\end{pmatrix}+c\begin{pmatrix}-2\\1\\\end{pmatrix}|c \in R \rbrace$

可以看出任意解都可以被分解成特解和零解。

那么对于线性方程组 $\displaystyle{x_1a_1+\cdots+x_na_n=\beta}$ 有解到底意味着什么呢？结合本人第二篇博文，我们对于方程式

$x_1a_1+\cdots+x_na_n=\beta$

有解可以获得以下结论：

$\beta\in(a_1,a_2,\dots,a_n)$
$(a_1,a_2,\ldots,a_n,\beta) \subseteq (a_1,a_2,\ldots,a_n)$
$(a_1,a_2,\ldots,a_n,\beta)=(a_1,a_2,\ldots,a_n)$
$dim(a_1,a_2,\ldots,a_n,\beta)=dim(a_1,a_2,\ldots,a_n)$
$rank(a_1,a_2,\ldots,a_n,\beta)=rank(a_1,a_2,\ldots,a_n)$

$\ast$ 注：以上几条结论可互相推导。

对于增广矩阵，有以下结构图（来源高等代数学习指导书《第二版上册）》第14页）：
增广矩阵结构图

｜从QR分解的角度重构增广矩阵

QR分解的数学表达。

定理如果 $\mathsf{m \times n}$ 矩阵 $\mathsf{A}$ 的列线性无关，那么A可以分解为 $A = QR$ ，其中 $Q$ 是一个 $\times n$ 矩阵，其列形成 $C o l A$ 的一个标准正交基，R是一个 $\times n$ 上三角矩阵且在对角线上的元素为正数。若Q是一个方阵，则 $Q^{-1}=Q^T$ ，Q为正交阵。令 $Q=(q_1,\ldots,q_n)$ ，故
$Q^TQ= \begin{pmatrix} q_1^T\\ \vdots\\ q_n^T\\ \end{pmatrix} \begin{pmatrix} q_1&\ldots&q_n\\ \end{pmatrix}=\begin{pmatrix} {1}&{0}&{\cdots}&0\\ {0}&{1}&{\cdots}&0\\ {\vdots}&{\vdots}&{\ddots}&{\vdots}\\ {0}&{0}&{\cdots}&{1}\\ \end{pmatrix}_{n \times n}=I_n$

应用方面：

设 A 为 $\times n$ 阶矩阵，A 的列向量线性无关， $A = QR$ 。 $\Leftrightarrow A^TA\hat{x}=A^Tb \Leftrightarrow R^TQ^TQR\hat{x}=R^TQ^Tb \Leftrightarrow R^TR\hat{x}=R^TQ^Tb \Leftrightarrow R\hat{x}=Q^Tb \Leftrightarrow \hat{x}=R^{-1}Q^Tb$ 。其中，若 $A$ 的列相互正交， $A=（a_1,\ldots,a_n）$ ，则 $R=diag(\parallel a_1 \parallel , \ldots , \parallel a_n \parallel )\rightarrow\hat{x}=R^ {-1}A^Tb$ 。设 $A x = b$ 无解，则 $b$ 在 $C (A)$ 上的投影为

$\mathsf{\color{red}P=\displaystyle\sum_{i=1}^n(\frac{a_i^Tb}{a_i^Ta_i})a_i}$

$A$ 是可逆矩阵，则QR分解唯一。
设 $A_{m \times n}$ 列满秩，有 $\notin C(A)$ ，设其投影在 $C (A)$ 为 $P ， e = b - p$ ，则 $(A, b)$ 为列满秩，其QR分解为 $\mathsf{\color{red}(A,b)=(Q,\frac{e}{\parallel e \parallel})\begin{pmatrix} R &\alpha \\ 0& \parallel e \parallel\\ \end{pmatrix},\alpha=Q^Tb}$ ， $\mathsf{A=(a_1,\ldots,a_n) \sim Q=(q_1,\dots,q_n)}$

上述从基的角度细细的梳理了QR分解，请多看几遍并配合相关题目理解。

三、转置（Transpose）

定义设A为 $\mathsf{m \times n}$ 阶矩阵，第 $i$ 行 $j$ 列的元素是 $\mathsf{a(i,j)}$ ，即： $A=(a_{ij})_{m \times n}$ ，把 $\times n$ 矩阵A的行换成同序数的列得到一个 $\mathsf{n \times m}$ 矩阵，此矩阵叫做A的转置矩阵，记做 $\mathsf{A^T=(a_{ji})_{n \times m}}$ 。

代数式表达： $\mathsf{A=(a_{ij})_{m\times n} \xrightarrow{f:T} A^T=(a_{ji})_{n \times m}}$

绝大多数人运算的时候也只是在计算稿上将矩阵沿主对角线进行翻转，如 $A=\begin{pmatrix}1&2\\ -2&1\\ \end{pmatrix}$ 转置有 $A^T=\begin{pmatrix}1&-2\\ 2&1\\ \end{pmatrix}$ 。接下来我们从代数层面深入一点来看下面两个运算。

｜有关“转置”的两个例题

e.g.2 对于 $\in F^{m \times n}$ ， $X\in F^{n\times 1}$ ， $B\in F^{n\times p}$ ，则 $(Ax)^T=(x_1A_1+\cdots+x_nA_n)^T=x_1A_1^T+\cdots+x_nA_n^T=\begin{pmatrix}x_1&x_2&\cdots&x_n\\\end{pmatrix}\begin{pmatrix}A_1^T\\A_2^T\\\vdots\\A_n^T\\\end{pmatrix}=x^TA^T$

$\ast$ 注：数 $x$ 转置后得到的仍然为 $x$ 。

e.g.3 $(AB)^T=(AB_1,AB_2,\cdots,AB_P)^T=\begin{pmatrix}(AB_1)^T\\\vdots\\(AB_p)^T\\\end{pmatrix}=\begin{pmatrix}B_1A^T\\\vdots\\B_p^TA^T\\\end{pmatrix}=\begin{pmatrix}B_1^T\\\vdots\\B_p^T\\\end{pmatrix}A^T=B^TA^T$

笔者在这里可以肯定，绝大多数人对转置的认知都停留在以上定义层面以及上述的代数运算层面。那转置在几何层面起什么作用呢？容笔者在这埋下一个伏笔，下面我们来快速的过一遍向量子空间。

四、向量子空间（subspace）

下图为笔者清华线性代数公开课笔记第一部分的第27页。
笔者清华线性代数公开课笔记Page27

四个基本子空间的代数表达，依次为“行空间、左零空间、零空间、列空间”：

$C(A)=\lbrace y\in R^m | y=Ax,\exists X\in R^N\rbrace$
$N(A^T)=\lbrace x\in R^m | x^TA=0\rbrace$
$N(A)=\lbrace x\in R^n | Ax=0\rbrace$
$C(A^T)=\lbrace y\in R^n | y=A^Tx, \exists X \in R^m\rbrace$

小贴士：在学习的数学的过程你需要很多固定的元认知模块，以便在学习的过程中像搭积木一样随取随用。比如上面四个子空间的代数表达式，心里知道核心图仅是第一步，第二步更重要，将其用数学语言代数化表达出来，这对于任何一个科目的学习都是通用的。类似的还有数乘，加法，乘法等。（如果有个“仓库”随时进行查找，也没有问题。）

五、以MIT线性代数习题公开课第11题为串联脉络

在开始阅读之前，请确保你已经看完MIT线代习题公开课第11题，而且有了略微的理解。下图为笔者在2019年11月30日的麻省理工线代习题公开课的摘录笔记第7页。

在这里插入图片描述

在计算的过程中，我们已经的得到了四个子空间的基底，下一步我们来看它是如何经过转置产生联系的，直接上图。

转置的作用
习题公开课视频的讲解非常清晰，行空间（基底 $\lbrace \begin{pmatrix}5\\0\\3\\\end{pmatrix},\begin{pmatrix}0\\1\\1\\\end{pmatrix}\rbrace$ ）和零空间（基底 $\lbrace \begin{pmatrix}-\frac{3}{5}\\-1\\1\\\end{pmatrix}\rbrace$ ）经过转置被投射到列空间（基底 $\lbrace \begin{pmatrix}1\\-2\\1\\\end{pmatrix},\begin{pmatrix}0\\1\\0\\\end{pmatrix}\rbrace$ ）和左零空间（基底 $\lbrace \begin{pmatrix}1\\0\\1\\\end{pmatrix} \rbrace$ ）。在这里可以清晰明了的看到矩阵的数值计算仅仅是流于表面的现象，向量空间与向量空间之间经由转置发生的变化才是真正的核心。

小贴士：引申一个问题，向量“ $\nearrow$ ”究竟是什么？经过以上的讲解，再将其理解为有方向、有长度的箭头是否已经有点太“初级”了呢？你必须理解，初次学习线性代数，引入一个“有方向、有长度的箭头”作为向量仅仅是为了让你建立几何直观方便入门，在学习的过程中，你要逐渐摒弃这个概念，真正从空间变化的角度来理解线性变换。更多时候，你要把向量看作是空间变化的线性载体。（观点启蒙于斯坦福大神的十一集开源课程「线性代数的本质」。）