线性代数之五：正交性

最新推荐文章于 2024-09-01 00:01:52 发布

zzulp

最新推荐文章于 2024-09-01 00:01:52 发布

阅读量1.7w

点赞数 1

分类专栏：数学

本文链接：https://blog.csdn.net/zzulp/article/details/78483865

版权

数学专栏收录该内容

9 篇文章 2 订阅

订阅专栏

5.1 标量积

5.1.1 向量余弦

标量积定义：有两个 $R^n$ 中的列向量x,y，则乘积 $x^Ty$ 称为x,y的标量积(scalar product)，标量积为一个标量 $\sum x_i y_i$

向量的欧氏距离:若 $x\in R^n$ ，则向量x的欧氏距离可通过标量积定义 $||x|| = ({x^Tx})^\frac{1}{2}= \sqrt{\sum x_i^2}$

向量距离：若x,y为 $R^n$ 中的向量，则x,y间的距离定义为 $||y-x||$

向量余弦的计算：若x,y为 $R^n$ 中的向量，两个向量的夹角为 $\theta$ ，则

x T y = | | x | | \times | | y | | \times c o s θ

$x^Ty=||x||×||y|| × cos\theta$
记u为x方向上的单位向量，v为y方向上的单位向量，则有||u||=||v||=1，则

c o s θ = x T | | x | | y | | y | | = u T v, θ \in [0, π]

$cos\theta=\frac{x^T}{||x||} \frac{y}{||y||} =u^Tv, \theta \in [0,\pi]$

柯西-施瓦茨不等式: 若x,y为 $R^n$ 中的向量，则 $x^Ty \le ||x||*||y||$ 当且仅当其中一个向量为0,或二者方向相同或相反时，等号成立

5.1.2 向量正交与投影

正交：若 $x^Ty=0$ ，则x和y称为正交的(orthogonal)，其几何意义是两个向量夹角为直角。

当两个向量x和y正交时，由勾股定理：

| | x - y | | 2 = | | x + y | | 2 = | | x | | 2 + | | y | | 2

$||x-y||^2 = ||x+y||^2 = ||x||^2 + ||y||^2$

在非正交情况下则有：

两个向量x,y与向量和(x+y)组成的三角形
$| | x + y | | 2 = (x + y) T (x + y) = | | x | | 2 + | | y | | 2 + 2 x T y$ $||x+y||^2 =(x+y)^T(x+y) =||x||^2 + ||y||^2 + 2x^Ty$
两个向量x,y与向量差(x-y)组成的三角形
$| | x - y | | 2 = (x - y) T (x - y) = | | x | | 2 + | | y | | 2 - 2 x T y$ $||x-y||^2 =(x-y)^T(x-y) =||x||^2 + ||y||^2 - 2x^Ty$

向量投影：若x,y为非零向量，则有：
x到y的标量投影为 $a=||x||cos\theta=x^T\frac{y}{||y||}$
x到y的向量投影为 $p=a\frac{y}{||y||}=x^T\frac{y}{||y||}\frac{y}{||y||}=\frac{x^Ty}{y^Ty}y$

5.1.3 向量余弦的应用

在1.3.6节中，展示了矩阵运算在检索中的应用。在其基础上，对矩阵的列向量及搜索向量单位化，则计算结果的每一行都对应一个文档的词向量与搜索向量的余弦值，其值越接近1,说明两个向量方向越相同，匹配度越好。

5.1.4 相关矩阵与协方差矩阵

矩阵A是n*m的矩阵，其各列 $a_j$ 代表一组观察序列，每个点 $a_{ij}$ 保存了第j组的各次观察值偏离于平均值的偏差。

令 $S=\frac{1}{n-1}A^TA$ ，则S的元素 $s_{ij}=\frac{1}{n-1}a_i^Ta_j$ ，由协方差的定义，其为第i列与第j列的协方差；若i=j，元素 $s_{ij}$ 为第i列的方差，我们称矩阵S为协方差矩阵。
对A的列向量进行单位化得到矩阵B，可知 $b_j=\frac{a_j}{||a_j||}$ 。令 $C=B^TB$ ，则C是一个m*m的矩阵，C的元素 $c_{ij}=b_i^Tb_j=\frac{a_i^Ta_j}{||a_i||*||a_j||}$ ，由向量余弦定义，其为A的第i列与第j列的cos距离，我们称矩阵C为相关矩阵。

5.2 正交子空间

正交子空间：设X和Y为 $R^n$ 的子空间，若对任意的 $x \in X$ 和 $y \in Y$ 都有 $x^Ty=0$ ，则称X和Y为正交的，记作 $X\perp Y$

正交补： $R^n$ 中，所有与Y中向量正交的向量集合记作 $Y^{\perp}$ ，称其为Y的正交补，有 $Y^{\perp}= \{x \in R^n |x^Ty=0,\forall y \in Y\}$

基本子空间定理：若A为一m*n矩阵，记 $R(A)$ 为A的列空间，则 $N(A)=R(A^T)^\perp$ ，且 $N(A^T)=R(A)^\perp$ 。

定理：若S为 $R^n$ 的子空间，则 $dimS+dimS^\perp=n$ 。此外，若 $\{x_1...,x_r\}$ 为 $S$ 的一组基，而 ${x_{r+1},...,x_n}$ 为 $S^\perp$ 的一组基，则 $\{x_1...,x_r,x_{r+1},...,x_n\}$ 为R的一组基。

直接和：若U和V为向量空间W的子空间，且每一个 $w\in W$ 可以惟一的写为一个和u+v，其中 $u\in U,v\in V$ ，则称W为U和V的直接和(direct sum)，记作 $W=U \bigoplus V$

定理：若S为R的子空间，则 $R^n=S \bigoplus S^{\perp}$
定理：若S为R的子空间，则 $(S^\perp)^\perp = S$
推论：若A为一m*n矩阵，且 $b \in R^m$ ，则要么存在向量 $x \in R^n$ 使得Ax=b，要么存在一个向量 $y \in R^m$ ，使得 $A^Ty=0 且y^Tb \ne 0$

5.3 最小二乘法

最小二乘问题一般可化为一个超定的方程组，一般我们不期望找到一个向量x，使得Ax=b，而是寻找x使得Ax最接近b，正交性在计算x的过程中扮演了重要的角色。
给定方程组Ax=b，则对每一个x都可以构造一个残差(residual)：

r (x) = b - A x

$r(x)=b-Ax$
因此

||b−Ax||=||r(x)|| $||b-Ax||=||r(x)||$ ，寻找一个向量x，使用||r(x)||最小，达到最小值的向量

xˆ $\widehat{x}$ 称为Ax=b的最小二乘解(least squares solution)。

正规方程组(normal equations)： 定义 $A^TAx=A^Tb$ 为 $Ax=b$ 的正规方程组。

下面的定理给出了如何求解最小二乘解的方法。
定理：若A是一秩为n的m*n矩阵，则正规方程组 $A^TAx=A^Tb$ 有惟一解 $\widehat{x}=(A^TA)^{-1}A^Tb$ ，且 $\widehat{x}$ 为Ax=b的惟一最小二乘解。

向量 $p=A\widehat{x}$ 为R(A)中的元素，且在最小二乘意义下最接近b。矩阵 $P=A (A^TA)^{-1}A^T$ 称为投影矩阵。

线性拟合：若数据之间存在线性关系y=kx+b，在最小二乘意义下拟合数据，则有

⎡ ⎣ ⎢ ⎢ ⎢ 1 ⋮ 1 x 1 ⋮ x m ⎤ ⎦ ⎥ ⎥ ⎥ [b k] = ⎡ ⎣ ⎢ ⎢ ⎢ y 1 ⋮ y m ⎤ ⎦ ⎥ ⎥ ⎥

$\left[ \matrix{1&x_1 \cr \vdots & \vdots \cr 1&x_m} \right] \left[ \matrix{b \cr k} \right] = \left[ \matrix{y_1 \cr \vdots \cr y_m} \right]$
只要有m组(x,y)的观察数据，代入上式中，即可由本章定理计算出b,k的值。

多项式拟合：若数据之间不像线性关系，则可以使用一个高次多项式 $y=a_0+a_1x+a_2x^2 + ... + a_1x^n$ 进行拟合，有

⎡ ⎣ ⎢ ⎢ ⎢ 1 ⋮ 1 x 1 ⋮ x m . . . . . . x n 1 ⋮ x n m ⎤ ⎦ ⎥ ⎥ ⎥ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ a 0 a 1 ⋮ a n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ y 1 ⋮ y m ⎤ ⎦ ⎥ ⎥ ⎥

$\left[ \matrix{ 1&x_1&...&x_1^n \cr \vdots & \vdots & &\vdots\cr 1&x_m & ... & x_m^n} \right] \left[ \matrix{a_0 \cr a_1 \cr \vdots \cr a_n} \right] = \left[ \matrix{y_1 \cr \vdots \cr y_m} \right]$
只要有m组(x,y)的观察数据，代入上式中，即可由本章定理计算出各个系数a的值。

下面的代码示例了使用numpy与scipy求解二次函数的最小二乘问题

import numpy as np
from scipy.optimize import leastsq

input_x = np.array([0,1,2,3])
input_y = np.array([3,2,4,4])
init_a = [1,1,1]

def func(x, args):
    a0,a1,a2 = args
    return a0 + a1*x + a2*x*x

def residual(args, x, y):
    return func(x,args) - y

result = leastsq(residual, init_a, args=(input_x, input_y))
print result[0] #2.75 -0.25, 0.25，即 y = 2.75 - 0.25x + 0.25x^2

5.4 内积空间

内积空间定义：一个定义了内积的向量空间V称为内积空间。向量空间V上的内积(inner product)为V上的运算，它将V中的向量x和y与一个实数< x, y >关联起来，并满足下列条件：

< x, y > $\ge 0$ ,发且仅当x=0时等号成立
对V中所有的x,y，都有 <x,y>=<y,x> <script type="math/tex" id="MathJax-Element-144"> = </script>
对V中所有x,y,z和标量a,b有 <ax+by,z>=a<x,z>+b<y,z> <script type="math/tex" id="MathJax-Element-145"> = a +b </script>

在行空间和列空间中，内积就是标量积。
在矩阵空间中，内积< A, B >为 $\sum^m_{i=1}\sum^n_{j=1}a_{ij}b_{ij}$

内积空间的性质：

若v为内积空间V的一个向量，v的长度或范数(norm)定义为： $||v||=\sqrt{<v,v>}$
如果两个向量u,v满足< u, v >=0，则称它们为正交的
若内积空间V中的向量u,v正交，则 $||u+v||^2=||u||^2+||v||^2$

在向量空间Rm*n中，内积定义的范数称为弗罗贝尼乌斯(Frobenius)范数，记为 $||*||_F$

投影：若u和v为内积空间V的向量，且v不为0，则u到v的标量投影为 $a=\frac{<u,v>}{||v||}$ ，且u到v的向量投影为 $p=a(\frac{1}{||v||}v)=\frac{<u,v>}{<v,v>}v$

范数：若V为一个向量空间，若对任意向量v，存在一个与之关联的实数||v||，称为v的范数。且 $||v||=\sqrt{<v,v>}$ 定义了V上的一个范数。

无穷范数：

| | x | | \infty = max 1 \leq i \leq n | x i |

$||x||_\infty = \max_{1 \le i \le n}|x_i|$

对任意实数p>1，有

| | x | | p = (\sum i = 1 n | x i | p) 1 / p

$||x||_p=(\sum_{i=1}^n|x_i|^p)^{1/p}$
当p=2时，称其为内积诱导范数。

范数给出了一种方法来度量两个向量的距离。若x和y为一个normed liner space空间中的向量，则x和y的距离定义为||y-x||

5.5 正交集

5.5.1 正交集

正交集：令 $v_1,v_2,...,v_n$ 为一内积空间V中的非零向量。当 $i \ne j$ 时有<script type="math/tex" id="MathJax-Element-70"> =0</script>，则 $\{v_1,v_2,...,v_n\}$ 称为向量的正交集。正交集中的向量两两正交。

定理：若 $\{v_1,v_2,...,v_n\}$ 为一内积空间V中非零向量的正交集，则 $v_1,v_2,...,v_n$ 是线性无关的。

规范正交(orthonormal)向量集合：单位向量的正交集，即 $\{e_1,e_2,...,e_n\}$
给定任意正交向量集合，可以通过将各向量单位化，从而得到规范正交集

规范正交基(orthonormal basis)：若 $\{ u_1,u_2,...,u_n\}$ 为内积空间V中的规范正交集合，其张成的子空间 $S=Span(u_1,u_2,...,u_n)$ ，称 $\{ u_1,u_2,...,u_n\}$ 为S的一组规范正交基。

定理：若 $u_1,u_2,...,u_n$ 为V的规范正交基，若v可由u线性表出即 $v=\sum_{i=1}^nc_iu_i$ ，则 $c_i=<v,u_i>$

推论：若 $u_1,u_2,...,u_n$ 为V的规范正交基，且w,v可由u线性表出即

v = \sum i = 1 n a i u i, w = \sum i = 1 n b i u i

$v=\sum_{i=1}^na_iu_i, w=\sum_{i=1}^nb_iu_i$ 则有

< w, v > = \sum i = 1 n a i b i

帕塞瓦尔公式:若 $u_1,u_2,...,u_n$ 为V的规范正交基，v可由v线性表出即 $v=\sum_{i=1}^nc_iu_i$ ，则

| | v | | 2 = \sum i = 1 n c 2 i

$||v||^2 = \sum_{i=1}^nc_i^2$

5.5.2 正交矩阵

正交矩阵：若一个n*n矩阵Q的列向量构成一组规范正交基，则称Q为正交矩阵。

定理：一个矩阵Q是正交矩阵的充要条件为 $Q^TQ=I$

正交矩阵的性质：

Q的列向量构成一组规范正交基
$Q^TQ=I$
$Q^{-1}=Q^T$
<Qx,Qy>=<x,y> <script type="math/tex" id="MathJax-Element-90"> = </script>
$||Qx||=||x||$

置换矩阵： 置换矩阵是将单位矩阵的各列重新排列得到的矩阵。
若P为置换矩阵，则A右乘P就是将A的各列按照P的重排序列进行重排，A左乘P就是将A的各行重排。

规范正交集与最小二乘问题
对于最小二乘问题，若矩阵A是正交矩阵，则求解过程更加简单。

规范正交矩阵的最小二乘解:若A的列向量构成 $R^m$ 中的规范正交集，则 $A^TA=I$ 且最小二乘问题的解为

x ˆ = A T b

$\widehat x=A^Tb$

5.6 格拉姆-放密特正交化

格拉姆-放密特过程：令 $\{x_1,...,x_n\}$ 为一内积空间V的一组基，令 $u_1=(\frac{1}{||x_1||})x_1$ ，递归地定义 $u_2,...,u_n$ 为

u k + 1 = 1 | | x k + 1 - p k | | (x k + 1 - p k)

$u_{k+1}=\frac{1}{||x_{k+1}-p_k||}(x_{k+1}-p_k)$ ，其中

pk=<xk+1,u1>u1+<xk+1,u2>u2+...+<xk+1,uk>uk $p_k=<x_{k+1},u_1>u_1 + <x_{k+1},u_2>u_2 + ... + <x_{k+1},u_k>u_k$ 为

xk+1 $x_{k+1}$ 到

Span(u1,...,uk) $Span(u_1,...,u_k)$ 上的投影向量。集合

u1,...un ${u_1,...u_n}$ 即为V的一组规范正交基。

QR分解：若A为秩为n的m*n矩阵，则A可分解为乘积QR，其中Q为一各列向量正交的m*n矩阵，R为一n*n的上三角矩阵且对角线元素均为正。

QR分解与最小二乘解:若A为一秩为n的m*n矩阵，则Ax=b的最小二乘解为 $\widehat x=R^{-1}Q^Tb$

5.7 使用numpy计算矩阵的QR分解

import numpy as np
A=np.array([[1,2],[3,4]])
q,r = np.linalg.qr(A)
print q,r

zzulp

关注

1
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录