线性代数（3）

最新推荐文章于 2024-03-23 17:46:50 发布

zizi7

最新推荐文章于 2024-03-23 17:46:50 发布

阅读量326

点赞数

分类专栏：数据挖掘

本文链接：https://blog.csdn.net/zizi7/article/details/104276064

版权

数据挖掘专栏收录该内容

7 篇文章 0 订阅

订阅专栏

$A x = b$ 无解时的求解

从线性代数（1）列空间的讨论可知，如果 $b$ 不在 $A$ 的列空间 $C (A)$ 内，那么 $A x = b$ 无解

在实际应用中这种无解的情况很多：
1）因为观察/测量的数据总会有误差，无法保证每个 $b_i$ 都是精确的；
2）未知数少，而限制条件多

先说结论：将 $A x = b$ 转为求
$A^TA\hat{x}=A^Tb \tag{1}$

式(1)的解是 $A x = b$ 的最优解
如果 $C (A)$ 线性无关，那么 $A^TA$ 必然可逆

空间投影

先探讨一维向量空间的情况
在这里插入图片描述
如图1， $\vec{p}$ 是 $\vec{b}$ 在 $\vec{a}$ 上的投影，有
$\vec{p}=x\vec{a}\\\vec{e}=\vec{b}-\vec{p} \tag{2}$
显然， $\vec{e}$ 垂直于 $\vec{a}$ ，根据正交向量点积为0的定理，有
$a^T(b-xa)=0\\\Rightarrow x=\frac{a^Tb}{a^Ta}\\\ \ \ \ \ \ \ \ \ \ \ \Rightarrow p=xa=a\frac{a^Tb}{a^Ta}\\\Rightarrow P=\frac{aa^T}{a^Ta} \tag{3}$
式(3)中 $P$ 为投影矩阵，将 $\vec{b}$ 投影到 $\vec{a}$ 上

投影矩阵3条性质：
1.秩为1（如式3，投影矩阵为列向量与行向量乘积，满足秩1矩阵的性质）
2.转置不变： $P^T=P$ ，说明投影矩阵是对称矩阵
3.平方不变： $P^2=P$ （投影2次和投影1次结果一样）

现在在二维空间中讨论 $A x = b$ 解的问题
假设 $A$ 的列空间基为 $a_1$ 、 $a_2$ ，那么当 $b$ 不在 $a_1$ 和 $a_2$ 确定的平面内时， $A x = b$ 无解

现在假设 $c$ 是 $b$ 在 $a_1$ 和 $a_2$ 确定的平面上的投影，即
$c=\hat{x}_1a_1+\hat{x}_2a_2 \tag{4}$
那么 $A\hat{x}=c$ 肯定有解，而且是 $A x = b$ 误差最小的解

令 $e$ 为从 $b$ 到 $c$ 的投影“垂线”，那么有
$e=b-A\hat{x} \tag{5}$
并且
$a_1^T(b-A\hat{x})=0\\a_2^T(b-A\hat{x})=0 \tag{6}$
将式(6)表示为矩阵形式
$A^T(b-A\hat{x})=0 \tag{7}$
从而
$\hat{x}=(A^TA)^{-1}A^Tb \tag{8}$
式(8)就是 $A x = b$ 的最优解

最小二乘上的应用

假设有3组二维数据 $1\ 1]^T$ 、 $2\ 2]^T$ 、 $3\ 2]^T$ ，需要拟合一条误差最小的直线

令直线为 $y=x_1+x_2t$ ，上述问题可以表示为式(9)的矩阵形式
$\left[\begin{matrix}1&1\\1&2\\1&3\end{matrix}\right]\left[\begin{matrix}x_1\\x_2\end{matrix}\right]=\left[\begin{matrix}1\\2\\2\end{matrix}\right] \tag{9}$
显然上式无解，应用式(8)，可求得最优解： $\hat{x}=[\frac{2}{3}\ \frac{1}{2}]^T$
即拟合的直线方程为 $y=\frac{2}{3}+\frac{1}{2}t$

现在用传统的目标函数的方式求解：
$min[(x_1+x_2-1)^2+(x_1+2x_2-2)^2+(x_1+3x_2-2)^2] \tag{10}$
式(10)分别对 $x_1$ 和 $x_2$ 求偏导，有
$3x_1+6x_2=5\\6x_1+14x_2=11 \tag{11}$
求解上述方程组，得 $x_1=\frac{2}{3}$ ， $x_2=\frac{1}{2}$ ，与式(8)得到的结果一致

正交矩阵

标准正交向量： $q_i^Tq_j=\begin{cases}0&i\neq j\\1&i=j\end{cases}$

正交矩阵： $Q=\left[\begin{matrix}q_1&q_2&...&q_n\end{matrix}\right]$ ，其中 $q_i$ 互相为标准正交向量，并且 $Q$ 为方阵

需要注意正交矩阵必须为方阵，这个是历史原因，其实并没道理
根据正交矩阵的定义，一定有
$Q^TQ=I\\Q^T=Q^{-1} \tag{12}$

Gram-Schmidt正交化

给定一个线性无关向量组 $a_1,a_2,...,a_n$ ，可以通过施密特正交法将其转换为相互正交的向量组 $b_1,b_2,...,b_n$

$\begin{aligned}b_1 &=a_1\\b_2&=a_2-\frac{<a_2,b_1>}{<b_1,b_1>}b_1\\b_3 &=a_3-\frac{<a_3,b_1>}{<b_1,b_1>}b_1-\frac{<a_3,b_2>}{<b_2,b_2>}b_2\\...\\b_n &=a_n-\frac{<a_n,b_1>}{<b_1,b_1>}b_1-\frac{<a_n,b_2>}{<b_2,b_2>}b_2-...-\frac{<a_n,b_{n-1}>}{<b_{n-1},b_{n-1}>}b_{n-1}\end{aligned} \tag{13}$

式(13)的 $\frac{b_i}{||b_i||}$ 便得到标准正交向量
式(13)的 $\frac{<a_n,b_{n-1}>}{<b_{n-1},b_{n-1}>}=\frac{b_{n-1}^Ta_n}{b_{n-1}^Tb_{n-1}} \tag{14}$

回忆空间投影里的式(2)和(3)，可以发现(13)的形式与其一致
事实上式(13)可以解释为： $b_2$ 是 $a_2$ 投影到 $a_1$ 的那个 $e$ （图1）

$A = Q R 分解$

对任意 $A\in \mathbb{R}^{m\times n}(m\geq n)$ ，总有 $\tag{15}$
其中 $Q\in \mathbb{R}^{m\times n}$ ，其列空间是 $A$ 列空间的标准正交向量
其中 $R\in \mathbb{R}^{n\times n}$ 是上三角矩阵 $\left[\begin{matrix}r_1&r_2\\0&r_3\end{matrix}\right]$