MIT公开课18.06 Gilbert Strang 线性代数 笔记2 - 最小二乘法,行列式和特征值

文章目录

第14讲:正交向量与子空间

正交向量

对于向量 x , y x, y x,y,当 x T ⋅ y = 0 x^T \cdot y=0 xTy=0 x 1 y 1 + x 2 y x + ⋯ + x n y n = 0 x_1y_1+x_2y_x+\cdots+x_ny_n=0 x1y1+x2yx++xnyn=0时,有向量 x , y x, y x,y正交(vector orthogonal)。

毕达哥拉斯定理(Pythagorean theorem)中提到,直角三角形的三条边满足:

∥ x → ∥ 2 + ∥ y → ∥ 2 = ∥ x + y → ∥ 2 x T x + y T y = ( x + y ) T ( x + y ) x T x + y T y = x T x + y T y + x T y + y T x 0 = x T y + y T x 对 于 向 量 点 乘 , x T y = y T x 0 = 2 x T y x T y = 0 \begin{aligned} \left\|\overrightarrow{x}\right\|^2+\left\|\overrightarrow{y}\right\|^2 &= \left\|\overrightarrow{x+y}\right\|^2 \\ x^Tx+y^Ty &= (x+y)^T(x+y) \\ x^Tx+y^Ty &= x^Tx+y^Ty+x^Ty+y^Tx \\ 0 &= x^Ty+y^Tx \qquad 对于向量点乘,x^Ty=y^Tx \\ 0 &= 2x^Ty \\ x^Ty &=0 \end{aligned} x 2+y 2xTx+yTyxTx+yTy00xTy=x+y 2=(x+y)T(x+y)=xTx+yTy+xTy+yTx=xTy+yTxxTy=yTx=2xTy=0

由此得出,两正交向量的点积为 0 0 0。另外, x , y x, y x,y可以为 0 0 0向量,由于 0 0 0向量与任意向量的点积均为零,所以 0 0 0向量与任意向量正交。

举个例子:
x = [ 1 2 3 ] , y = [ 2 − 1 0 ] , x + y = [ 3 1 3 ] x=\begin{bmatrix}1\\2\\3\end{bmatrix}, y=\begin{bmatrix}2\\-1\\0\end{bmatrix}, x+y=\begin{bmatrix}3\\1\\3\end{bmatrix} x=123,y=210,x+y=313,有 ∥ x → ∥ 2 = 14 , ∥ y → ∥ 2 = 5 , ∥ x + y → ∥ 2 = 19 \left\| \overrightarrow{x} \right\|^2=14, \left\| \overrightarrow{y} \right\|^2=5, \left\| \overrightarrow{x+y} \right\|^2=19 x 2=14,y 2=5,x+y 2=19,而 x T y = 1 × 2 + 2 × ( − 1 ) + 3 × 0 = 0 x^Ty=1\times2+2\times (-1)+3\times0=0 xTy=1×2+2×(1)+3×0=0

子空间正交

定义:两空间正交意味着在空间 A A A中的所有向量都和在空间 B B B中的所有向量正交

推论:如果两个空间相交于一个非零向量,则两个空间不可能正交
因为一个非零向量不可能与其本身正交
在这里插入图片描述

行空间正交于零空间
证明:
零空间是 A x = 0 Ax=0 Ax=0的解,即 x x x若在零空间,则 A x Ax Ax为零向量;
而对于行空间,有 [ r o w 1 r o w 2 ⋮ r o w m ] [ x ] = [ 0 0 ⋮ 0 ] \begin{bmatrix}row_1\\row_2\\ \vdots \\row_m\end{bmatrix} \Bigg[x\Bigg]= \begin{bmatrix}0\\0\\ \vdots\\ 0\end{bmatrix} row1row2rowm[x]=000,可以看出:
[ r o w 1 ] [ x ] = 0 [ r o w 2 ] [ x ] = 0 ⋮ [ r o w m ] [ x ] = 0 \begin{bmatrix}row_1\end{bmatrix}\Bigg[x\Bigg]=0 \\ \begin{bmatrix}row_2\end{bmatrix}\Bigg[x\Bigg]=0 \\ \vdots \\ \begin{bmatrix}row_m\end{bmatrix}\Bigg[x\Bigg]=0 \\ [row1][x]=0[row2][x]=0[rowm][x]=0

所以这个等式告诉我们, x x x A A A中的所有行正交;

接下来还验证 x x x是否与 A A A中各行的线性组合正交,
{ c 1 ( r o w 1 ) T x = 0 c 2 ( r o w 2 ) T x = 0 ⋮ c n ( r o w m ) T x = 0 \begin{cases} c_1(row_1)^Tx=0 \\ c_2(row_2)^Tx=0 \\ \vdots \\ c_n(row_m)^Tx=0 \\ \end{cases} c1(row1)Tx=0c2(row2)Tx=0cn(rowm)Tx=0
各式相加得 ( c 1 r o w 1 + c 2 r o w 2 + ⋯ + c n r o w m ) T x = 0 (c_1row_1+c_2row_2+\cdots+c_nrow_m)^Tx=0 (c1row1+c2row2++cnrowm)Tx=0,得证。

我们可以说,行空间与零空间将 R n \mathbb{R}^n Rn分割为两个正交的子空间,同样的,列空间与左零空间将 R m \mathbb{R}^m Rm分割为两个正交的子空间。

举例, A = [ 1 2 5 2 4 10 ] A=\begin{bmatrix}1&2&5\\2&4&10\end{bmatrix} A=[1224510],则可知 m = 2 , n = 3 , r a n k ( A ) = 1 , d i m N ( A ) = 2 m=2, n=3, rank(A)=1, dim N(A)=2 m=2,n=3,rank(A)=1,dimN(A)=2

A x = [ 1 2 5 2 4 10 ] [ x 1 x 2 x 3 ] = [ 0 0 ] Ax=\begin{bmatrix}1&2&5\\2&4&10\end{bmatrix}\begin{bmatrix}x_1\\x_2\\x_3\end{bmatrix}=\begin{bmatrix}0\\0\end{bmatrix} Ax=[1224510]x1x2x3=[00],解得零空间的一组基 x 1 = [ − 2 1 0 ] x 2 = [ − 5 0 1 ] x_1=\begin{bmatrix}-2\\1\\0\end{bmatrix}\quad x_2=\begin{bmatrix}-5\\0\\1\end{bmatrix} x1=210x2=501

而行空间的一组基为 r = [ 1 2 5 ] r=\begin{bmatrix}1\\2\\5\end{bmatrix} r=125,零空间与行空间正交,在本例中行空间也是零空间的法向量。

在上例中,我们发现行空间与零空间的维度之和 = 整个空间的维度:
行空间与零空间为 n n n维空间里的正交补(orthogonal complement),即零空间包含了所有与行空间正交的向量
同理列空间与左零空间为 m m m维空间里的正交补,即左零空间包含了所有与列空间正交的向量。

A x = b Ax=b Ax=b无解时,如何去“解”这个方程组

无解:即 b b b不在 A A A的列空间中

对于长方矩阵, m > n m>n m>n,无解的情况很常见:如测量卫星的位置,测了一千次,得到了一千个方程,但实际上只需要几个参数便可确定其位置。

对于这种矩阵, A x = b Ax=b Ax=b中经常混入一些包含“坏数据”的方程,虽然可以通过筛选的方法去掉一些我们不希望看到的方程,但是这并不是一个稳妥的方法。

于是,我们引入一个重要的矩阵: A T A A^TA ATA。这是一个 n × m n \times m n×m矩阵点乘 m × n m \times n m×n矩阵,其结果是一个 n × n n \times n n×n矩阵,应该注意的是,这也是一个对称矩阵,证明如下:

( A T A ) T = A T ( A T ) T = A T A (A^TA)^T=A^T(A^T)^T=A^TA (ATA)T=AT(AT)T=ATA

这一章节的核心就是 A T A x = A T b A^TAx=A^Tb ATAx=ATb,这个变换可以将“坏方程组”变为“好方程组”。

举例,有 [ 1 1 1 2 1 5 ] [ x 1 x 2 ] = [ b 1 b 2 b 3 ] \begin{bmatrix}1&1\\1&2\\1&5\end{bmatrix}\begin{bmatrix}x_1\\x_2\end{bmatrix}=\begin{bmatrix}b_1\\b_2\\b_3\end{bmatrix} 111125[x1x2]=b1b2b3,只有当 [ b 1 b 2 b 3 ] \begin{bmatrix}b_1\\b_2\\b_3\end{bmatrix} b1b2b3在矩阵的列空间时,方程才有解。

A T A A^TA ATA [ 1 1 1 1 2 5 ] [ 1 1 1 2 1 5 ] = [ 3 8 8 30 ] \begin{bmatrix}1&1&1\\1&2&5\end{bmatrix}\begin{bmatrix}1&1\\1&2\\1&5\end{bmatrix}=\begin{bmatrix}3&8\\8&30\end{bmatrix} [111215]111125=[38830],可以看出此例中 A T A A^TA ATA是可逆的,于是列空间就是整个 n n n维空间,方程总是有解。
然而并非所有 A T A A^TA ATA都是可逆的,如 [ 1 1 1 3 3 3 ] [ 1 3 1 3 1 3 ] = [ 3 9 9 27 ] \begin{bmatrix}1&1&1\\3&3&3\end{bmatrix}\begin{bmatrix}1&3\\1&3\\1&3\end{bmatrix}=\begin{bmatrix}3&9\\9&27\end{bmatrix} [131313]111333=[39927](注意到这是两个秩一矩阵相乘,得到的矩阵的秩不会大于一)

先给出结论:

N ( A T A ) = N ( A ) r a n k ( A T A ) = r a n k ( A ) A T A 可 逆 当 且 仅 当 N ( A ) 为 零 向 量 , 即 A 的 列 线 性 无 关 N(A^TA)=N(A)\\ rank(A^TA)=rank(A)\\ A^TA可逆当且仅当N(A)为零向量,即A的列线性无关\\ N(ATA)=N(A)rank(ATA)=rank(A)ATAN(A)A线

下一讲涉及这些结论的证明和投影,很重要。

第15讲:子空间投影

背景: A x = b Ax=b Ax=b无解时,求它的“解”

故事还要从 A x = b Ax=b Ax=b无解的时候说起,当其无解的时候,我们只能求出最接近的那个解。

我们想要的是“最优解”,即这个解对于原方程偏差 e r r o r error error 最小
A x Ax Ax总是在 A A A的列空间中,而 b b b却不一定,这是问题所在,所以我们可以将 b b b变为 A A A的列空间中最接近的那个向量,即当我们取 b b b在列空间中的投影 p p p时,求解 A x ^ = p A\hat x=p Ax^=p,此时的解的 e r r o r error error最小, x ^ \hat{x} x^不再是那个不存在的 x x x,而是最接近的解

简单二维上的投影

R 2 \mathbb{R}^2 R2空间讲起,有向量 a , b a, b a,b,做 b b b a a a上的投影 p p p,如图:
在这里插入图片描述

从图中我们知道,向量 e e e就像是向量 b , p b, p b,p之间的误差, e = b − p , e ⊥ p e=b-p, e \bot p e=bp,ep p p p a a a上,有 p = x a p=xa p=xa

所以有 a T e = a T ( b − p ) = a T ( b − x a ) = 0 a^Te=a^T(b-p)=a^T(b-xa)=0 aTe=aT(bp)=aT(bxa)=0。关于正交的最重要的方程:

a T ( b − x a ) = 0 x a T a = a T b x = a T b a T a p = a a T b a T a a^T(b-xa)=0 \\ xa^Ta=a^Tb \\ x=\frac{a^Tb}{a^Ta} \\ p=a\frac{a^Tb}{a^Ta} aT(bxa)=0xaTa=aTbx=aTaaTbp=aaTaaTb

从上面的式子可以看出,如果将 b b b变为 2 b 2b 2b p p p也会翻倍,如果将 a a a变为 2 a 2a 2a p p p不变(联想图中的意思)

设投影矩阵为 P P P,则可以说投影矩阵作用与某个向量后,得到其投影向量 p p p p = P b p=Pb p=Pb

易得出 P = a a T a T a P=\frac{aa^T}{a^Ta} P=aTaaaT
a T a a^Ta aTa为一个数, a a T aa^T aaT列乘以行为一个矩阵,若 a a a n n n维列向量,则 P P P是一个 n × n n \times n n×n矩阵。

投影矩阵 P P P的列空间 C ( P ) C(P) C(P)是一条和 a a a重合的直线, r a n k ( P ) = 1 rank(P)=1 rank(P)=1(一列乘以一行: a a T aa^T aaT,矩阵(这里为 a a a)乘以任意向量(矩阵可看作向量组,这里把 a T a^T aT看作一向量组)都是其列空间的重新线性组合,因此 a a a是该矩阵的基)。

投影矩阵的性质:

  • P = P T P=P^T P=PT,投影矩阵是一个对称矩阵。
  • 如果对一个向量做两次投影,即 P P b PPb PPb,则其结果仍然与 P b Pb Pb相同,也就是 P 2 = P P^2=P P2=P

记住这三个公式:
x = a T b a T a p = a x = a a T b a T a P = a a T a T a x=\frac{a^Tb}{a^Ta} \\ p=ax=a\frac{a^Tb}{a^Ta} \\ P=\frac{aa^T}{a^Ta} x=aTaaTbp=ax=aaTaaTbP=aTaaaT

推广到高维

在这里插入图片描述

现在来看 R 3 \mathbb{R}^3 R3中的情形,将向量 b b b投影在平面 A A A上。同样的, p p p是向量 b b b在平面 A A A上的投影, e e e是垂直于平面 A A A的向量,即 b b b在平面 A A A法方向的分量。
设平面 A A A的一组基为 a 1 , a 2 a_1, a_2 a1,a2,则投影向量可以表示为基的线性组合 p = x 1 ^ a 1 + x 2 ^ a 2 p=\hat{x_1}a_1+\hat{x_2}a_2 p=x1^a1+x2^a2,我们更倾向于写作 p = A x ^ p=A\hat{x} p=Ax^,这里如果我们求出 x ^ \hat{x} x^,则该解就是无解方程组最近似的解。

现在问题的关键在于找 e = b − A x ^ e=b-A\hat{x} e=bAx^,使它垂直于平面,因此我们得到两个方程
{ a 1 T ( b − A x ^ ) = 0 a 2 T ( b − A x ^ ) = 0 \begin{cases}a_1^T(b-A\hat{x})=0\\ a_2^T(b-A\hat{x})=0\end{cases} { a1T(bAx^)=0a2T(bAx^)=0,将方程组写成矩阵形式
[ a 1 T a 2 T ] ( b − A x ^ ) = [ 0 0 ] \begin{bmatrix}a_1^T\\a_2^T\end{bmatrix} (b-A\hat{x})= \begin{bmatrix}0\\0\end{bmatrix} [a1Ta2T](bAx^)=[00],即 A T ( b − A x ^ ) = 0 A^T(b-A\hat{x})=0 AT(bAx^)=0

比较该方程与 R 2 \mathbb{R}^2 R2中的投影方程,发现只是向量 a a a变为矩阵 A A A而已,本质上就是 A T e = 0 A^Te=0 ATe=0,所以, e e e A T A^T AT的零空间中( e ∈ N ( A T ) e\in N(A^T) eN(AT))。
从前一讲我们知道,左零空间与列空间正交补,有 e ⊥ C ( A ) e\bot C(A) eC(A),与我们设想的一致。

再化简方程得 A T A x ^ = A T b A^TA \hat x=A^Tb ATAx^=ATb,比较在 R 2 \mathbb{R}^2 R2中的情形, a T a a^Ta aTa是一个数字而 A T A A^TA ATA是一个 n n n阶方阵,解出的 x x x可以看做两个数字的比值。现在在 R 3 \mathbb{R}^3 R3中,我们需要再次考虑:什么是 x ^ \hat{x} x^?投影是什么?投影矩阵又是什么?

  • 第一个问题: x ^ = ( A T A ) − 1 A T b \hat x=(A^TA)^{-1}A^Tb x^=(ATA)1ATb
  • 第二个问题: p = A x ^ = A ( A T A ) − 1 A T ‾ b p=A\hat x=\underline{A(A^TA)^{-1}A^T}b p=Ax^=A(ATA)1ATb,回忆在 R 2 \mathbb{R}^2 R2中的情形,下划线部分就是原来的 a a T a T a \frac{aa^T}{a^Ta} aTaaaT
  • 第三个问题: p = P b p=Pb p=Pb,易得出投影矩阵就是下划线部分 P = A ( A T A ) − 1 A T P=A(A^TA)^{-1}A^T P=A(ATA)1AT

这里还需要注意一个问题, P = A ( A T A ) − 1 A T P=A(A^TA)^{-1}A^T P=A(ATA)1AT是不能继续化简为 P = A A − 1 ( A T ) − 1 A T = I P=AA^{-1}(A^T)^{-1}A^T=I P=AA1(AT)1AT=I的,因为这里的 A A A并不是一个可逆方阵。
也可以换一种思路,如果 A A A是一个 n n n阶可逆方阵,则 A A A的列空间是整个 R n \mathbb{R}^n Rn空间,于是 b b b R n \mathbb{R}^n Rn上的投影矩阵确实变为了 I I I,因为 b b b已经在空间中了,其投影不再改变。

再来看投影矩阵 P P P的性质:

  • P = P T P=P^T P=PT:有
    [ A ( A T A ) − 1 A T ] T = A [ ( A T A ) − 1 ] T A T \left[A(A^TA)^{-1}A^T\right]^T=A\left[(A^TA)^{-1}\right]^TA^T [A(ATA)1AT]T=A[(ATA)1]TAT,而 ( A T A ) (A^TA) (ATA)是对称的,所以其逆也是对称的,所以有 A ( ( A T A ) − 1 ) T A T = A ( A T A ) − 1 A T A((A^TA)^{-1})^TA^T=A(A^TA)^{-1}A^T A((ATA)1)TAT=A(ATA)1AT,得证。
  • P 2 = P P^2=P P2=P:有
    [ A ( A T A ) − 1 A T ] [ A ( A T A ) − 1 A T ] = A ( A T A ) − 1 [ ( A T A ) ( A T A ) − 1 ] A T = A ( A T A ) − 1 A T \left[A(A^TA)^{-1}A^T\right]\left[A(A^TA)^{-1}A^T\right]=A(A^TA)^{-1}\left[(A^TA)(A^TA)^{-1}\right]A^T=A(A^TA)^{-1}A^T [A(ATA)1AT][A(ATA)1AT]=A(ATA)1[(ATA)(ATA)1]AT=A(ATA)1AT,得证。

应用举例:最小二乘法拟合直线

在这里插入图片描述
我们需要找到距离图中三个点 ( 1 , 1 ) , ( 2 , 2 ) , ( 3 , 2 ) (1, 1), (2, 2), (3, 2) (1,1),(2,2),(3,2) 偏差最小的直线: b = C + D t b=C+Dt b=C+Dt

根据条件可以得到方程组
{ C + D = 1 C + 2 D = 2 C + 3 D = 2 \begin{cases} C+D&=1 \\ C+2D&=2 \\ C+3D&=2 \\ \end{cases} C+DC+2DC+3D=1=2=2,写作矩阵形式
[ 1 1 1 2 1 3 ] [ C D ] = [ 1 2 2 ] \begin{bmatrix}1&1 \\1&2 \\1&3\\\end{bmatrix}\begin{bmatrix}C\\D\\\end{bmatrix}=\begin{bmatrix}1\\2\\2\\\end{bmatrix} 111123[CD]=122,也就是我们的 A x = b Ax=b Ax=b,很明显方程组无解。但是 A T A x ^ = A T b A^TA\hat x=A^Tb ATAx^=ATb有解( A T A A^TA ATA A T b A^Tb ATb都是 A T A^T AT的重新线性组合,所以在同一空间),于是我们将原是两边同时乘以 A T A^T AT后得到的新方程组是有解的, A T A x ^ = A T b A^TA\hat x=A^Tb ATAx^=ATb也是最小二乘法的核心方程。

下一讲将进行最小二乘法的验算。

总结

A x = b Ax=b Ax=b无解时,可求其近似解: x ^ = ( A T A ) − 1 A T b \hat x=(A^TA)^{-1}A^Tb x^=(ATA)1ATb

b b b A A A的列空间上的投影 p p p p = A x ^ = A ( A T A ) − 1 A T ‾ b p=A\hat x=\underline{A(A^TA)^{-1}A^T}b p=Ax^=A(ATA)1ATb

投影矩阵 P P P P = A ( A T A ) − 1 A T P=A(A^TA)^{-1}A^T P=A(ATA)1AT P = P T P=P^T P=PT P 2 = P P^2=P P2=P

第16讲:投影矩阵和最小二乘

回顾上讲

上一讲中,我们知道了投影矩阵 P = A ( A T A ) − 1 A T P=A(A^TA)^{-1}A^T P=A(ATA)1AT P b Pb Pb将会把向量投影在 A A A的列空间中。

一般情况下, b b b将会有一个垂直于 A A A的分量,和一个在 A A A列空间中的分量,投影的作用就是去掉垂直分量而保留列空间中的分量。

举两个极端的例子:

  • 如果 b ⊥ C ( A ) b\bot C(A) bC(A),则 P b = 0 Pb=0 Pb=0
  • 如果 b ∈ C ( A ) b\in C(A) bC(A),则 P b = b Pb=b Pb=b

在第一个极端情况中,如果 b ⊥ C ( A ) b\bot C(A) bC(A)则有 b ∈ N ( A T ) b\in N(A^T) bN(AT),即 A T b = 0 A^Tb=0 ATb=0。则 p = P b = A ( A T A ) − 1 A T b = 0 p=Pb=A(A^TA)^{-1}A^Tb=0 p=Pb=A(ATA)1ATb=0,得证。

在第二个极端情况中,如果 b ∈ C ( A ) b\in C(A) bC(A)则有 b = A x b=Ax b=Ax。带入投影矩阵 p = P b = A ( A T A ) − 1 A T A x = A x p=Pb=A(A^TA)^{-1}A^TAx=Ax p=Pb=A(ATA)1ATAx=Ax,得证。

向量 b b b投影后,有 b = e + p , p = P b , e = ( I − P ) b b=e+p, p=Pb, e=(I-P)b b=e+p,p=Pb,e=(IP)b,这里的 p p p b b b C ( A ) C(A) C(A)中的投影,而 e e e b b b N ( A T ) N(A^T) N(AT)中的投影。

最小二乘

问题描述

可以从两个图描述该问题

向量关系图

在这里插入图片描述

最优直线图

我们需要找到距离图中三个点 ( 1 , 1 ) , ( 2 , 2 ) , ( 3 , 2 ) (1, 1), (2, 2), (3, 2) (1,1),(2,2),(3,2) 偏差最小的直线: y = C + D t y=C+Dt y=C+Dt
在这里插入图片描述

根据条件可以得到方程组
{ C + D = 1 C + 2 D = 2 C + 3 D = 2 \begin{cases} C+D&=1 \\ C+2D&=2 \\ C+3D&=2 \\ \end{cases} C+DC+2DC+3D=1=2=2
写作矩阵形式:
[ 1 1 1 2 1 3 ] [ C D ] = [ 1 2 2 ] \begin{bmatrix}1&1 \\1&2 \\1&3\\\end{bmatrix}\begin{bmatrix}C\\D\\\end{bmatrix}=\begin{bmatrix}1\\2\\2\\\end{bmatrix} 111123[CD]=122,也就是我们的 A x = b Ax=b Ax=b,很明显方程组无解。

我们需要求一个最接近的解,使得误差 e 1 2 + e 2 2 + e 3 2 e_1^2+e_2^2+e_3^2 e12+e22+e32最小,找到拥有最小平方和的解(即最小二乘),即 ∥ A x − b ∥ 2 = ∥ e ∥ 2 \left\|Ax-b\right\|^2=\left\|e\right\|^2 Axb2=e2最小。

此时向量 b b b变为在 A A A上的投影 向量 p p p
p = [ p 1 p 2 p 3 ] p=\begin{bmatrix}p_1\\p_2\\p_3\end{bmatrix}\\ p=p1p2p3(在方程组有解的情况下, A x − b = 0 Ax-b=0 Axb=0,即 b b b A A A的列空间中,误差 e e e为零)
我们现在做的运算也称作线性回归(linear regression),使用误差的平方和作为测量总误差的标准。

注:如果有另一个点,如 ( 0 , 100 ) (0, 100) (0,100),在本例中该点明显距离别的点很远,最小二乘将很容易被离群的点影响,通常使用最小二乘时会去掉明显离群的点。

求解

现在我们尝试解出 x ^ = [ C ^ D ^ ] \hat x=\begin{bmatrix}\hat C\\ \hat D\end{bmatrix} x^=[C^D^] p = [ p 1 p 2 p 3 ] p=\begin{bmatrix}p_1\\p_2\\p_3\end{bmatrix} p=p1p2p3

A T A x ^ = A T b A T A = [ 3 6 6 14 ] A T b = [ 5 11 ] [ 3 6 6 14 ] [ C ^ D ^ ] = [ 5 11 ] A^TA\hat x=A^Tb\\ A^TA= \begin{bmatrix}3&6\\6&14\end{bmatrix}\qquad A^Tb= \begin{bmatrix}5\\11\end{bmatrix}\\ \begin{bmatrix}3&6\\6&14\end{bmatrix} \begin{bmatrix}\hat C\\\hat D\end{bmatrix}= \begin{bmatrix}5\\11\end{bmatrix}\\ ATAx^=ATbATA=[36614]ATb=[511][36614][C^D^]=[511]

写作方程形式为 { 3 C ^ + 16 D ^ = 5 6 C ^ + 14 D ^ = 11 \begin{cases}3\hat C+16\hat D&=5\\6\hat C+14\hat D&=11\\\end{cases} { 3C^+16D^6C^+14D^=5=11,也称作正规方程组(normal equations)。

解方程得 C ^ = 2 3 , D ^ = 1 2 \hat C=\frac{2}{3}, \hat D=\frac{1}{2} C^=32,D^=21,则“最佳直线”为 y = 2 3 + 1 2 t y=\frac{2}{3}+\frac{1}{2}t y=32+21t

x = 1 , x = 2 , x = 3 x=1,x=2,x=3 x=1x=2,x=3,解得 p 1 = 7 6 , p 2 = 5 3 , p 3 = 13 6 p_1=\frac{7}{6}, p_2=\frac{5}{3}, p_3=\frac{13}{6} p1=67,p2=35,p3=613

所以 e 1 = − 1 6 , e 2 = 1 3 , e 3 = − 1 6 e_1=-\frac{1}{6}, e_2=\frac{1}{3}, e_3=-\frac{1}{6} e1=61,e2=31,e3=61

我们得到 p = [ 7 6 5 3 13 6 ] , e = [ − 1 6 1 3 − 1 6 ] p=\begin{bmatrix}\frac{7}{6}\\\frac{5}{3}\\\frac{13}{6}\end{bmatrix}, e=\begin{bmatrix}-\frac{1}{6}\\\frac{1}{3}\\-\frac{1}{6}\end{bmatrix} p=6735613,e=613161

向量关系

易看出 b = p + e b=p+e b=p+e,同时我们发现 p ⋅ e = 0 p\cdot e=0 pe=0 p ⊥ e p\bot e pe

误差向量 e e e不仅垂直于投影向量 p p p,它垂直于列空间,比如垂直于列空间的这两个基 [ 1 1 1 ] , [ 1 2 3 ] \begin{bmatrix}1\\1\\1\end{bmatrix}, \begin{bmatrix}1\\2\\3\end{bmatrix} 111,123

对比向量关系图,结论一致。
在这里插入图片描述

微积分角度求解方案

回顾前面提到的“使得误差最小”的条件:
e 1 2 + e 2 2 + e 3 2 = ( C + D − 1 ) 2 + ( C + 2 D − 2 ) 2 + ( C + 3 D − 2 ) 2 e_1^2+e_2^2+e_3^2=(C+D-1)^2+(C+2D-2)^2+(C+3D-2)^2 e12+e22+e32=(C+D1)2+(C+2D2)2+(C+3D2)2,使该式取最小值
如果使用微积分方法,则需要对该式的两个变量 C , D C, D C,D分别求偏导数,再令求得的偏导式为零即可,正是我们刚才求得的正规方程组。(正规方程组中的第一个方程是对 C C C求偏导的结果,第二个方程式对 D D D求偏导的结果,无论使用哪一种方法都会得到上面的方程组)

证明 A T A A^TA ATA可逆

如果 A A A的各列线性无关,求证 A T A A^TA ATA是可逆矩阵。
根据第三讲的内容,要证 A T A A^TA ATA可逆,只要证明:若 A T A x = 0 A^TAx=0 ATAx=0,则 x x x只能是零向量

所以先假设 A T A x = 0 A^TAx=0 ATAx=0
两边同时乘以 x T x^T xT x T A T A x = 0 x^TA^TAx=0 xTATAx=0
( A x ) T ( A x ) = 0 (Ax)^T(Ax)=0 (Ax)T(Ax)=0,一个矩阵乘其转置结果为零,则这个矩阵也必须为零( ( A x ) T ( A x ) (Ax)^T(Ax) (Ax)T(Ax)相当于 A x Ax Ax长度的平方)
A x = 0 Ax=0 Ax=0
结合题设中的“ A A A的各列线性无关”,可知 x = 0 x=0 x=0
也就是 A T A A^TA ATA的零空间中有且只有零向量,得证。

特殊的线性无关

我们再来看一种线性无关的特殊情况:互相垂直的列向量一定是线性无关的。(排除零向量)
比如:

  • [ 1 0 0 ] [ 0 1 0 ] [ 0 0 1 ] \begin{bmatrix}1\\0\\0\end{bmatrix}\begin{bmatrix}0\\1\\0\end{bmatrix}\begin{bmatrix}0\\0\\1\end{bmatrix} 100010001
  • [ cos ⁡ θ sin ⁡ θ ] [ − sin ⁡ θ cos ⁡ θ ] \begin{bmatrix}\cos\theta\\\sin\theta\end{bmatrix}\begin{bmatrix}-\sin\theta\\\cos\theta\end{bmatrix} [cosθsinθ][sinθcosθ]

这些正交单位向量称作标准正交向量组(orthonormal vectors)。

下一讲研究标准正交向量组。

第17讲:正交矩阵和Gram-Schmidt正交化法

标准正交矩阵

定义

定义标准正交向量(orthonormal): q i T q j = { 0 i ≠ j 1 i = j q_i^Tq_j=\begin{cases}0\quad i\neq j\\1\quad i=j\end{cases} qiTqj={ 0i=j1i=j
两两正交,长度为1的向量组

我们将标准正交向量放入矩阵中,有 Q = [ q 1 q 2 ⋯ q n ] Q=\Bigg[q_1 q_2 \cdots q_n\Bigg] Q=[q1q2qn]
我们把 Q Q Q称为标准正交矩阵(orthonormal matrix),常常省略叫正交矩阵

Q T Q Q^TQ QTQ

上一讲我们研究了 A T A A^TA ATA的特性,现在来观察 Q T Q = [ q 1 T q 2 T ⋮ q n T ] [ q 1 q 2 ⋯ q n ] Q^TQ=\begin{bmatrix} & q_1^T & \\ & q_2^T & \\ & \vdots & \\ & q_n^T & \end{bmatrix}\Bigg[q_1 q_2 \cdots q_n\Bigg] QTQ=q1Tq2TqnT[q1q2qn]

根据标准正交向量的定义, Q T Q = [ 1 0 ⋯ 0 0 1 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ 1 ] = I Q^TQ=\begin{bmatrix}1&0&\cdots&0\\0&1&\cdots&0\\\vdots&\vdots&\ddots&\vdots\\0&0&\cdots&1\end{bmatrix}=I QTQ=100

  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值