【机器学习的数学基础】（四）解析几何(Analytic Geometry)（上）

最新推荐文章于 2023-02-08 16:07:18 发布

二进制人工智能

最新推荐文章于 2023-02-08 16:07:18 发布

阅读量4.4k

点赞数 3

分类专栏：机器学习的数学基础文章标签：机器学习数学基础

本文链接：https://blog.csdn.net/weixin_44378835/article/details/113904972

版权

机器学习的数学基础专栏收录该内容

16 篇文章

订阅专栏

文章目录

- 3 解析几何(Analytic Geometry)（上）

3 解析几何(Analytic Geometry)（上）

在第二章中，我们在一般但抽象的层次上研究了向量、向量空间和线性映射。在本章中，我们将为所有这些概念添加一些几何解释和直观感觉。特别地，我们会研究几何向量并计算它们的长度和距离或者两个向量之间的夹角。为了能够做到这一点，我们在向量空间中加入了内积这一概念，从而引出向量空间的几何形状。从内积及其相应的范数和度量可以得到相似性和距离的直观概念，我们在第十二章中的支持向量机将使用到这些概念。然后，我们将使用向量之间的长度和角度的概念来讨论正交投影，这将在第10章讨论主成分分析以及第9章通过最大似然估计回归时发挥核心作用。图3.1概述了本章的概念是如何关联的，以及它们是如何与本书的其他章节相联系的。
在这里插入图片描述
图3.1本章介绍的概念的思维导图，以及它们在书的其他部分的应用。

3.1 范数

对于几何向量，即从原点开始的有向线段，直观地说，它的长度是有向线段的“终点”到原点的距离。下面，我们将用范数来讨论向量长度这一概念。

定义 3.1 范数

向量空间 $V$ 的范数是一个指定每个向量 $\boldsymbol{x}$ 的长度的函数
$\begin{aligned}\|\cdot\|: V & \rightarrow \mathbb{R} \\\boldsymbol{x} & \mapsto\|\boldsymbol{x}\|\end{aligned}$

并且对于任何 $\lambda \in \mathbb{R}$ 以及 $\boldsymbol{x}, \boldsymbol{y} \in V$ ，以下成立：

绝对一次齐次性(Absolutely homogeneous)： $\|\lambda \boldsymbol{x}\|=|\lambda|\|\boldsymbol{x}\|$
三角不等式(Triangle inequality)： $\|\boldsymbol{x}+\boldsymbol{y}\| \leqslant\|\boldsymbol{x}\|+\|\boldsymbol{y}\|$
正定性(Positive definite): $\|\boldsymbol{x}\| \geqslant 0 \text { and }\|\boldsymbol{x}\|=0 \Longleftrightarrow \boldsymbol{x}=\mathbf{0}$

在几何中，三角形不等式指出，对于任何三角形，任意两条边的长度之和必须大于或等于另一条边的长度；如图3.2。
在这里插入图片描述
图 3.2三角不等式

定义3.1是关于一般的向量空间 $V$ (2.4节)，但在本书中我们只考虑有限维向量空间 $\mathbb{R}^{n}$ 。对于向量 $\boldsymbol{x} \in \mathbb{R}^{n}$ ，我们用下标表示向量的元素，也就是说， $x_i$ 是向量 $\boldsymbol{x}$ 的第 $i$ 个元素。

在这里插入图片描述
图3.3 红线表示两种不同范数为1的向量集合。左：曼哈顿范数；右：欧氏距离。

例 3.1 曼哈顿范数(Manhattan Norm)

$\boldsymbol{x} \in \mathbb{R}^{n}$ 的曼哈顿范数定义为：
$\|\boldsymbol{x}\|_{1}:=\sum_{i=1}^{n}\left|x_{i}\right|$
$|\cdot |$ 表示绝对值。图3.3左边的图展示了所有 $x\|_{1}=1$ 的向量 $\in \mathbb{R}^{2}$ 。曼哈顿范数也称为 $\ell_{1}$ 范数。

例 3.2 欧几里得范数(Euclidean Norm)

$\boldsymbol{x} \in \mathbb{R}^{n}$ 的欧几里得范数定义为：
$\|x\|_{2}:=\sqrt{\sum_{i=1}^{n} x_{i}^{2}}=\sqrt{x^{\top} x}$
它计算 $\boldsymbol{x}$ 与原点的欧几里得距离(Euclidean distance)。
图3.3右边的图展示了所有 $\|\boldsymbol{x}\|_{2}=1$ 的向量 $\boldsymbol{x} \in \mathbb{R}^{2}$ ，欧几里得范数也称为 $\ell_{2}$ 范数.

备注：
下文中，如果没有另外说明，我们将使默认用欧几里德范数。

3.2 内积

内积可以引入一些直观的几何概念，例如向量的长度和两个向量之间的角度或距离。内积的一个主要目的是确定向量之间是否正交。

3.2.1 点积

我们可能已经熟悉了一种特殊类型的内积， $\mathbb{R}^{n}$ 中的标量积/点积(scalar product/dot product)：
$\boldsymbol{x}^{\top} \boldsymbol{y}=\sum_{i=1}^{n} x_{i} y_{i}\qquad(3.5)$

在这本书中，我们将把这种特殊的内积称为点积。但是，内积是具有特定性质的更一般的概念，我们现在将介绍这些概念。

3.2.2 一般内积

回想一下2.7节中的线性映射，我们可以重新排列与标量的相加和乘相相关的映射。而双线性映射(bilinear mapping) $\Omega$ 是有两个参数的的映射，且对于每个参数它都是线性的，即对于 $\boldsymbol{x}, \boldsymbol{y}, \boldsymbol{z} \in V, \lambda, \psi \in \mathbb{R}$ ，有：
$\Omega(\lambda \boldsymbol{x}+\psi \boldsymbol{y}, \boldsymbol{z})=\lambda \Omega(\boldsymbol{x}, \boldsymbol{z})+\psi \Omega(\boldsymbol{y}, \boldsymbol{z})$
$\Omega(\boldsymbol{x}, \lambda \boldsymbol{y}+\psi \boldsymbol{z})=\lambda \Omega(\boldsymbol{x}, \boldsymbol{y})+\psi \Omega(\boldsymbol{x}, \boldsymbol{z})$

这里，第一个式子表明 $Ω$ 关于第一个参数中是线性的，第二个式子表明 $Ω$ 关于第二个参数中是线性的。

定义 3.2

令 $V$ 为向量空间， $\Omega: V \times V \rightarrow \mathbb{R}$ 为双线性映射，它取 $V$ 中的两个向量并将它们映射到一个实数，那么：

对于所有 $\boldsymbol{x}, \boldsymbol{y} \in V$ ，如果 $\Omega(\boldsymbol{x}, \boldsymbol{y})=\Omega(\boldsymbol{y}, \boldsymbol{x})$ ，则称 $\Omega$ 为对称的( symmetric)，即参数的顺序没有影响。
如果 $\ { 0 } : Ω ( x , x ) > 0 , Ω ( 0 , 0 ) = 0 \forall \boldsymbol{x} \in V \backslash\{\boldsymbol{0}\}: \Omega(\boldsymbol{x}, \boldsymbol{x})>0, \quad \Omega(\mathbf{0}, \mathbf{0})=0$ ，则 $\Omega$ 称为正定的(positive definite)

定义 3.3

使 $V$ 为向量空间， $\Omega: V \times V \rightarrow \mathbb{R}$ 为双线性映射，它取 $V$ 中的两个向量并将它们映射到一个实数，那么：

一个正定且对称的双线性映射 $\Omega: V \times V \rightarrow \mathbb{R}$ 称为 $V$ 上的内积(inner produc)，我们通常写成 $\langle\boldsymbol{x}, \boldsymbol{y}\rangle$ 而不是 $\Omega(\boldsymbol{x}, \boldsymbol{y})$ 。
$(V,\langle\cdot, \cdot\rangle)$ 称为内积空间或带内积的(实)向量空间。如果我们以点积为内积，则我们称 $(V,\langle\cdot, \cdot\rangle)$ 为欧氏向量空间(Euclidean vector space)。
在书中，我们将这些空间称为内积空间。

例 3.3 非点积的内积

考虑 $V=\mathbb{R}^{2}$ ，我们定义
$\langle\boldsymbol{x}, \boldsymbol{y}\rangle:=x_{1} y_{1}-\left(x_{1} y_{2}+x_{2} y_{1}\right)+2 x_{2} y_{2}$
其中 $\langle\cdot, \cdot\rangle$ 为非点积的内积。

3.2.3 对称正定矩阵

对称正定矩阵在机器学习中起着重要的作用，它们是通过内积定义的。在4.3节矩阵分解中将涉及到对称正定矩阵。对称半正定矩阵的思想也是机器学习中核技巧的关键（12.4节）。

考虑一个 $n$ 维向量空间 $V$ 和内积： $\langle\cdot, \cdot\rangle:V \times V \rightarrow \mathbb{R}$ (见定义3.3)以及 $V$ 的有序基础 $B=\left(\boldsymbol{b}_{1}, \ldots, \boldsymbol{b}_{n}\right)$ 。对于合适的 $\psi_{i}, \lambda_{j} \in \mathbb{R}$ ，任何向量 $\boldsymbol{x}, \boldsymbol{y} \in V$ 都可以写成基向量的线性组合： $\boldsymbol{x}=\sum_{i=1}^{n} \psi_{i} \boldsymbol{b}_{i} \in V$ 和 $\boldsymbol{y}=\sum_{j=1}^{n} \lambda_{j} \boldsymbol{b}_{j} \in V$ 。由于内积的双线性，对于所有 $\boldsymbol{x}, \boldsymbol{y} \in V$ ，有：
$\langle\boldsymbol{x}, \boldsymbol{y}\rangle=\left\langle\sum_{i=1}^{n} \psi_{i} \boldsymbol{b}_{i}, \sum_{j=1}^{n} \lambda_{j} \boldsymbol{b}_{j}\right\rangle=\sum_{i=1}^{n} \sum_{j=1}^{n} \psi_{i}\left\langle\boldsymbol{b}_{i}, \boldsymbol{b}_{j}\right\rangle \lambda_{j}=\hat{\boldsymbol{x}}^{\top} \boldsymbol{A} \hat{\boldsymbol{y}}$

以 $n = 2$ 为例，
$\left\langle\sum_{i=1}^{2} \psi_{i} \boldsymbol{b}_{i}, \sum_{j=1}^{2} \lambda_{j} \boldsymbol{b}_{j}\right\rangle=\left\langle \psi_1\boldsymbol{b}_1+\psi_2\boldsymbol{b}_2 , \lambda_1\boldsymbol{b}_1+\lambda_2\boldsymbol{b}_2\right\rangle=\psi_1\left\langle \boldsymbol{b}_1, \lambda_1\boldsymbol{b}_1+\lambda_2\boldsymbol{b}_1\right\rangle + \psi_2\left\langle \boldsymbol{b}_2, \lambda_1\boldsymbol{b}_1+\lambda_2\boldsymbol{b}_1\right\rangle$
$=\psi_1[\lambda_1\left\langle \boldsymbol{b}_1,\boldsymbol{b}_1 \right\rangle+\lambda_2\left\langle \boldsymbol{b}_1,\boldsymbol{b}_2 \right\rangle]+\psi_2[\lambda_1\left\langle \boldsymbol{b}_2,\boldsymbol{b}_1 \right\rangle+\lambda_2\left\langle \boldsymbol{b}_2,\boldsymbol{b}_2 \right\rangle]$
$=[\psi_1,\psi_2]\left[\begin{array}{l}\lambda_1\left\langle \boldsymbol{b}_1,\boldsymbol{b}_1 \right\rangle+\lambda_2\left\langle \boldsymbol{b}_1,\boldsymbol{b}_2 \right\rangle \\\lambda_1\left\langle \boldsymbol{b}_2,\boldsymbol{b}_1 \right\rangle+\lambda_2\left\langle \boldsymbol{b}_2,\boldsymbol{b}_2 \right\rangle\end{array}\right]$
$=[\psi_1,\psi_2]\left[\begin{array}{l}\left\langle \boldsymbol{b}_1,\boldsymbol{b}_1 \right\rangle+\left\langle \boldsymbol{b}_1,\boldsymbol{b}_2 \right\rangle \\\left\langle \boldsymbol{b}_2,\boldsymbol{b}_1 \right\rangle+\left\langle \boldsymbol{b}_2,\boldsymbol{b}_2 \right\rangle\end{array}\right]\left[\begin{array}{l}\lambda_1\\\lambda_2\end{array}\right]$

其中 $A_{i j}:=\left\langle\boldsymbol{b}_{i}, \boldsymbol{b}_{j}\right\rangle$ ， $\hat{\boldsymbol{x}}, \hat{\boldsymbol{y}}$ 为 $\boldsymbol{x}$ 和 $\boldsymbol{y}$ 相对于基 $B$ 的坐标。这意味着 $\langle\cdot, \cdot\rangle$ 是由 $\boldsymbol{A}$ 唯一确定的。由于内积是对称的，所以 $\boldsymbol{A}$ 也是对称的。此外，内积的正定性意味着
$\ { 0 } : x ⊤ A x > 0 \forall x \in V \backslash\{\mathbf{0}\}: \boldsymbol{x}^{\top} \boldsymbol{A} \boldsymbol{x}>0$

定义 3.4 对称正定矩阵

满足 $\ { 0 } : x ⊤ A x > 0 \forall x \in V \backslash\{\mathbf{0}\}: \boldsymbol{x}^{\top} \boldsymbol{A} \boldsymbol{x}>0$ 的对称矩阵称为对称正定的(symmetric, positive definite)或只称它为正定的(positive definite)。如果 $\ { 0 } : x ⊤ A x ≥ 0 \forall x \in V \backslash\{\mathbf{0}\}: \boldsymbol{x}^{\top} \boldsymbol{A} \boldsymbol{x}\ge0$ ，则称 $\boldsymbol{A}$ 为对称半正定的(symmetric, positive semidefinite.)。

例 3.4 对称，正定矩阵

考虑矩阵
$\boldsymbol{A}_{1}=\left[\begin{array}{ll}9 & 6 \\6 & 5\end{array}\right], \quad \boldsymbol{A}_{2}=\left[\begin{array}{ll}9 & 6 \\6 & 3\end{array}\right]$

$\boldsymbol{A}_{1}$ 为正定的，因为对于 $\ { 0 } \boldsymbol{x} \in V \backslash\{\mathbf{0}\}$ ，它是对称的且
$\begin{aligned}\boldsymbol{x}^{\top} \boldsymbol{A}_{1} \boldsymbol{x} &=\left[\begin{array}{ll}x_{1} & x_{2}\end{array}\right]\left[\begin{array}{l}9 & 6 \\6 & 5\end{array}\right]\left[\begin{array}{l}x_{1} \\x_{2}\end{array}\right] \\&=9 x_{1}^{2}+12 x_{1} x_{2}+5 x_{2}^{2}=\left(3 x_{1}+2 x_{2}\right)^{2}+x_{2}^{2}>0\end{aligned}$

而 $\boldsymbol{A}_{2}$ 仅仅是对称的，它不是正定的，因为 $\boldsymbol{x}^{\top} \boldsymbol{A}_{2} \boldsymbol{x}=9 x_{1}^{2}+12 x_{1} x_{2}+3 x_{2}^{2}=\left(3 x_{1}+2 x_{2}\right)^{2}-x_{2}^{2}$ 可能小于0，例如当 $\boldsymbol{x}=[2,-3]^{\top}$ 时。

如果 $\boldsymbol{A} \in \mathbb{R}^{n \times n}$ 是对称，正定的，那么：
$\langle\boldsymbol{x}, \boldsymbol{y}\rangle=\hat{\boldsymbol{x}}^{\top} \boldsymbol{A} \hat{\boldsymbol{y}}$
定义了关于有序基 $B$ 的内积， $\hat{\boldsymbol{x}}，\hat{\boldsymbol{y}}$ 为 ${\boldsymbol{x}}，{\boldsymbol{y}}$ 相对于基 $B$ 的坐标。

定理 3.5 对于一个实值，有限维向量空间 $V$ 和 $V$ 的一个有序基 $B$ ， $\langle\cdot, \cdot\rangle: V \times V \rightarrow \mathbb{R}$ 为一个内积当且仅当存在一个对称的，正定矩阵 $\boldsymbol{A} \in \mathbb{R}^{n \times n}$ 使得
$\langle\boldsymbol{x}, \boldsymbol{y}\rangle=\hat{\boldsymbol{x}}^{\top} \boldsymbol{A} \hat{\boldsymbol{y}}$

如果 $\boldsymbol{A} \in \mathbb{R}^{n \times n}$ 是对称且正定的，那么它有以下属性：

$\boldsymbol{A}$ 的零空间(核)只由 $\boldsymbol{0}$ 组成，因为对于所有 $\boldsymbol{x}\not=\boldsymbol{0}$ ， $\boldsymbol{x}^{\top} \boldsymbol{A} \boldsymbol{x}>0$ ，这意味着如果 $\boldsymbol{x}\not=\boldsymbol{0}$ ，那么 $\boldsymbol{A}\boldsymbol{x}\not=\boldsymbol{0}$
$\boldsymbol{A}$ 的对角元素 $a_{ii}$ 是正的，因为 $a_{i i}=\boldsymbol{e}_{i}^{\top} \boldsymbol{A} \boldsymbol{e}_{i}>0$ ，其中 $e_i$ 为 $\mathbb{R}^{n}$ 标准基的第 $i$ 个向量。

3.3 长度和距离

在3.1节中，我们已经讨论了可以用来计算向量长度的范数。内积与范数密切相关，因为任何内积都自然地引出范数
$\|\boldsymbol{x}\|:=\sqrt{\langle\boldsymbol{x}, \boldsymbol{x}\rangle}$

这使得我们就可以用内积来计算向量的长度。然而，并不是每一个范数都是由内积引起的。曼哈顿范数是没有相应内积的的一种范数。在下面，我们将集中讨论由内积导出的范数，并介绍一些几何概念，如长度、距离和角度。

备注：柯西-施瓦兹不等式

对于一个内积向量空间 $(V,\langle\cdot, \cdot\rangle)$ ，其引出的范数 $\|\cdot\|$ 满足柯西-施瓦兹不等式(Cauchy-Schwarz Inequality)：
$|\langle\boldsymbol{x}, \boldsymbol{y}\rangle| \leqslant\|\boldsymbol{x}\|\|\boldsymbol{y}\|$

例 3.5：内积求向量长度

在几何学中，我们经常对向量的长度感兴趣。我们现在可以使用内积 $\|\boldsymbol{x}\|:=\sqrt{\langle\boldsymbol{x}, \boldsymbol{x}\rangle}$ 来计算它们。我们取 $\boldsymbol{x}=[1, 1]^{\top} \in \mathbb{R}^{2}$ 。如果我们使用点积作为内积，我们可以得到 $\boldsymbol{x}$ 的长度：
$\|\boldsymbol{x}\|=\sqrt{\boldsymbol{x}^{\top} \boldsymbol{x}}=\sqrt{1^{2}+1^{2}}=\sqrt{2}$

让我们选择一个不同的内积：
$\langle\boldsymbol{x}, \boldsymbol{y}\rangle:=\boldsymbol{x}^{\top}\left[\begin{array}{cc}1 & -\frac{1}{2} \\-\frac{1}{2} & 1\end{array}\right] \boldsymbol{y}=x_{1} y_{1}-\frac{1}{2}\left(x_{1} y_{2}+x_{2} y_{1}\right)+x_{2} y_{2}$
当我们计算向量的范数时，如果向量的元素 $x_1$ 和 $x_2$ 有相同的符号( $x_1x_2\gt0$ ），那么这个内积返回的值比点积小；否则，它返回的值比点积大。通过这个内积，我们代入[1,1]得到：
$\langle\boldsymbol{x}, \boldsymbol{x}\rangle=x_{1}^{2}-x_{1} x_{2}+x_{2}^{2}=1-1+1=1 \Longrightarrow\|\boldsymbol{x}\|=\sqrt{1}=1$
这样计算得到的 $\boldsymbol{x}$ 的长度比点积的“短”。

定义 3.6 距离和度量

考虑一个内积空间 $(V,\langle\cdot, \cdot\rangle)$ ，对于任意 $\boldsymbol{x}, \boldsymbol{y} \in V$ ：
$d(\boldsymbol{x}, \boldsymbol{y}):=\|\boldsymbol{x}-\boldsymbol{y}\|=\sqrt{\langle\boldsymbol{x}-\boldsymbol{y}, \boldsymbol{x}-\boldsymbol{y}\rangle}$
称为 $\boldsymbol{x}$ 和 $\boldsymbol{y}$ 的距离(distance )。如果我们用点积作为内积，则该距离称为欧几里得距离(Euclidean distance)。映射
$\begin{aligned}d: V \times V & \rightarrow \mathbb{R} \\(\boldsymbol{x}, \boldsymbol{y}) & \mapsto d(\boldsymbol{x}, \boldsymbol{y})\end{aligned}$
称为度量(metric)

备注：
与向量的长度类似，向量之间的距离不需要使用到其他内积：一般的范数就足够了。如果我们有一个由内积引出的范数，距离可能会因内积的不同而不同。

度量 $d$ 满足：

1、 $d$ 是正定的，即对于任意 $\boldsymbol{x}, \boldsymbol{y} \in V$ ， $d(\boldsymbol{x}, \boldsymbol{y}) \geqslant 0$ ，且 $d(\boldsymbol{x}, \boldsymbol{y})=0 \Longleftrightarrow \boldsymbol{x}=\boldsymbol{y}$
2、 $d$ 是对称的，即对于任意 $\boldsymbol{x}, \boldsymbol{y} \in V$ ， $d(\boldsymbol{x}, \boldsymbol{y})=d(\boldsymbol{y}, \boldsymbol{x})$
3、三角不等式：对于 $\boldsymbol{x}, \boldsymbol{y}, \boldsymbol{z} \in V$ ， $d(\boldsymbol{x}, \boldsymbol{z}) \leqslant d(\boldsymbol{x}, \boldsymbol{y})+d(\boldsymbol{y}, \boldsymbol{z})$

备注：
乍一看，内积和度量的一系列属性看起来非常相似。然而，通过比较定义3.3和定义3.6，我们发现 $\langle\boldsymbol{x}, \boldsymbol{y}\rangle$ 和 $d(\boldsymbol{x}, \boldsymbol{y})$ 的表现是相反的：非常相似的 $\boldsymbol{x}$ 和 $\boldsymbol{y}$ ，其内积值较大而度量值很小(因为度量涉及两个向量相减)。

3.4 角度和正交

除了能够定义向量的长度以及两个向量之间的距离之外，内积还能通过计算两个向量之间的角度 $ω$ 来得到向量空间的几何结构。我们利用Cauchy-Schwarz不等式来定义两个向量 $\boldsymbol{x}$ 和 $\boldsymbol{y}$ 之间在内积空间中的夹角 $ω$ ，这个概念与我们在 $\mathbb{R}^{2}$ 和 $\mathbb{R}^{3}$ 中的直观感觉相吻合。假设 $\boldsymbol{x} \neq \mathbf{0}, \boldsymbol{y} \neq \mathbf{0}$ 。那么
$\leqslant \frac{\langle\boldsymbol{x}, \boldsymbol{y}\rangle}{\|\boldsymbol{x}\|\|\boldsymbol{y}\|} \leqslant 1$
因此，存在唯一的 $\omega \in[0, \pi]$ ，使得：
$\cos \omega=\frac{\langle\boldsymbol{x}, \boldsymbol{y}\rangle}{\|\boldsymbol{x}\|\|\boldsymbol{y}\|}\qquad (3.25)$
如图3.4所示。

在这里插入图片描述
图3.4对于 $w\in[0,\pi]$ ， $f(x)=\cos(w)$ 返回 $[- 1, 1]$ 区间内唯一对应的值。

$ω$ 的值是向量 $\boldsymbol{x}$ 和 $\boldsymbol{y}$ 之间的角度(angle)。直观地说，两个向量之间的夹角告诉我们它们的方向有多相似。例如，使用点积情况下， $\boldsymbol{x}$ 和 $\boldsymbol{y}=4\boldsymbol{x}$ 之间的角度为0：它们的方向相同，即 $\boldsymbol{y}$ 是 $\boldsymbol{x}$ 的缩放版本。
在这里插入图片描述
图3.5用内积计算两个向量 $\boldsymbol{x}$ , $\boldsymbol{y}$ 之间的角度 $ω$ 。

例 3.6 向量间的角度

让我们以点积作为内积计算 $\boldsymbol{x}=[1,1]^{\top} \in \mathbb{R}^{2}$ ， $\boldsymbol{y}=[1,2]^{\top} \in \mathbb{R}^{2}$ 的夹角，见图3.5。

$\cos \omega=\frac{\langle\boldsymbol{x}, \boldsymbol{y}\rangle}{\sqrt{\langle\boldsymbol{x}, \boldsymbol{x}\rangle\langle\boldsymbol{y}, \boldsymbol{y}\rangle}}=\frac{\boldsymbol{x}^{\top} \boldsymbol{y}}{\sqrt{\boldsymbol{x}^{\top} \boldsymbol{x} \boldsymbol{y}^{\top} \boldsymbol{y}}}=\frac{3}{\sqrt{10}}$
则两个向量之间的角度为 $\left(\frac{3}{\sqrt{10}}\right) \approx 0.32 \mathrm{rad}$ ，大约 $18 °$

内积的一个关键特征是它还允许我们将向量描述为正交的(orthogonal)。

定义 3.7正交性

两个向量 $\boldsymbol{x}$ 和 $\boldsymbol{y}$ 是正交（ orthogonal）当且仅当 $\langle\boldsymbol{x}, \boldsymbol{y}\rangle=0$ ，写成 $\boldsymbol{x}\perp\boldsymbol{y}$ 。若 $\|\boldsymbol{x}\|=1=\|\boldsymbol{y}\|$ 即向量为单位向量，则 $\boldsymbol{x}$ 和 $\boldsymbol{y}$ 为标准正交的( orthonormal)

这个定义表明 $\boldsymbol{0}$ 向量与向量空间中的每个向量正交。

图 3.6两个向量 $x$ , $y$ 之间的角度 $ω$ 取决于内积的选择。

例 3.7 正交向量

考虑图3.6两个向量 $\boldsymbol{x}=[1,1]^{\top}, \boldsymbol{y}=[-1,1]^{\top} \in \mathbb{R}^{2}$ 。我们来用两个不同的内积来确定它们之间的角 $ω$ 。使用点积作为内积， $\boldsymbol{x}$ 和 $\boldsymbol{y}$ 之间的角 $ω$ 为90°，因此 $\boldsymbol{x}\perp\boldsymbol{y}$ 。但是，如果我们选择内积
$\langle\boldsymbol{x}, \boldsymbol{y}\rangle=\boldsymbol{x}^{\top}\left[\begin{array}{ll}2 & 0 \\0 & 1\end{array}\right] \boldsymbol{y}$
我们得到 $\boldsymbol{x}$ 和 $\boldsymbol{y}$ 之间的角度 $ω$ 由以下式子给出：
$\cos \omega=\frac{\langle\boldsymbol{x}, \boldsymbol{y}\rangle}{\|\boldsymbol{x}\|\|\boldsymbol{y}\|}=-\frac{1}{3} \Longrightarrow \omega \approx 1.91 \mathrm{rad} \approx 109.5^{\circ}$
可以得到 $\boldsymbol{x}$ 和 $\boldsymbol{y}$ 不是正交的。因此，关于一种内积正交的向量不一定关于其他内积正交。

定义 3.8正交矩阵

方阵 $\boldsymbol{A} \in \mathbb{R}^{n \times n}$ 为正交矩阵当且仅当它的列是标准正交的，即
$\boldsymbol{A} \boldsymbol{A}^{\top}=\boldsymbol{I}=\boldsymbol{A}^{\top} \boldsymbol{A}$
这意味着通过简单的转置就可以得到正交矩阵的逆矩阵。
$\boldsymbol{A}^{-1}=\boldsymbol{A}^{\top}$

正交矩阵变换是特殊的，因为向量 $\boldsymbol{x}$ 在用正交矩阵 $\boldsymbol{A}$ 对其变换时，向量的长度是不变的。以点积为内积，我们可以得到：
$\|\boldsymbol{A} \boldsymbol{x}\|^{2}=(\boldsymbol{A} \boldsymbol{x})^{\top}(\boldsymbol{A} \boldsymbol{x})=\boldsymbol{x}^{\top} \boldsymbol{A}^{\top} \boldsymbol{A} \boldsymbol{x}=\boldsymbol{x}^{\top} \boldsymbol{I} \boldsymbol{x}=\boldsymbol{x}^{\top} \boldsymbol{x}=\|\boldsymbol{x}\|^{2}$

此外，使用正交矩阵 $\boldsymbol{A}$ 对任意两个向量 $\boldsymbol{x}，\boldsymbol{y}$ 进行变换，使用内积测量变换前后向量间的角度是不变的。假设内积为点积，则像 $\boldsymbol{Ax}$ 和像 $\boldsymbol{Ay}$ 之间的角度如下所示：
$\cos \omega=\frac{(\boldsymbol{A} \boldsymbol{x})^{\top}(\boldsymbol{A} \boldsymbol{y})}{\|\boldsymbol{A} \boldsymbol{x}\|\|\boldsymbol{A} \boldsymbol{y}\|}=\frac{\boldsymbol{x}^{\top} \boldsymbol{A}^{\top} \boldsymbol{A} \boldsymbol{y}}{\sqrt{\boldsymbol{x}^{\top} \boldsymbol{A}^{\top} \boldsymbol{A} \boldsymbol{x} \boldsymbol{y}^{\top} \boldsymbol{A}^{\top} \boldsymbol{A} \boldsymbol{y}}}=\frac{\boldsymbol{x}^{\top} \boldsymbol{y}}{\|\boldsymbol{x}\|\|\boldsymbol{y}\|}$

这意味着 $\boldsymbol{A}^{\top}=\boldsymbol{A}^{-1}$ 的正交矩阵 $\boldsymbol{x}$ 对两个向量变换后同时保持了它们之间的角度和距离。这表明正交矩阵定义的变换是旋转（也可能是翻转）。在3.9节我们将讨论有关旋转的更多细节。

3.5 标准正交基

在第2.6.1节中，我们刻画了基向量的性质，发现在一个 $n$ 维向量空间中，我们需要 $n$ 个基向量，即 $n$ 个线性无关的向量。在第3.3节和第3.4节中，我们使用内积来计算向量的长度和向量之间的夹角。下面，我们将讨论基向量相互正交且每个基向量的长度都为1的特殊情况。我们称这个基为标准正交基。

定义 3.9 标准正交基( Orthonormal Basis)

考虑一个 $n$ 维向量空间 $V$ 和 $V$ 的一个基 $\left\{\boldsymbol{b}_{1}, \ldots, \boldsymbol{b}_{n}\right\}$ ，如果对于任意 $\ldots, n$ ，有：
$\left\langle\boldsymbol{b}_{i}, \boldsymbol{b}_{j}\right\rangle=0 \quad \text { for } i \neq j$
$\left\langle\boldsymbol{b}_{i}, \boldsymbol{b}_{i}\right\rangle=1\qquad (3.34)$
则这个基称为标准正交基(orthonormal basis, ONB)。
如果单单满足第一个式子，则这个基被称为正交基(orthogonal basis)。注意(3.34)表明所有基向量的长度/范数为1.

回想2.61节中，我们可以使用高斯消元法为一组向量所张成的向量空间找到一个基。这里假设我们给定一个非正交和非标准基向量的集合 $\left\{\tilde{\boldsymbol{b}}_{1}, \ldots, \tilde{\boldsymbol{b}}_{n}\right\}$ 。我们把它们连接成一个矩阵 $\tilde{\boldsymbol{B}}=\left[\tilde{\boldsymbol{b}}_{1}, \ldots, \tilde{\boldsymbol{b}}_{n}\right]$ 。并将高斯消元法应用于增广矩阵 $\left[\tilde{\boldsymbol{B}} \tilde{\boldsymbol{B}}^{\top} \mid \tilde{\boldsymbol{B}}\right]$ 即可获得正交基。这种迭代地建立一个正交基 $\left\{\boldsymbol{b}_{1}, \ldots, \boldsymbol{b}_{n}\right\}$ 的构造性方法被称为Gram-Schmidt过程(Gram-Schmidt process)。

例 3.8 标准正交基

欧氏向量空间 $\mathbb{R}^{n}$ 的规范基/标准基是标准正交基，其中内积是向量的点积。
$\mathbb{R}^{2}$ 中，向量
$\boldsymbol{b}_{1}=\frac{1}{\sqrt{2}}\left[\begin{array}{l}1 \\1\end{array}\right], \quad \boldsymbol{b}_{2}=\frac{1}{\sqrt{2}}\left[\begin{array}{c}1 \\-1\end{array}\right]$
形成标准正交基，因为 $\boldsymbol{b}_{1}^{\top} \boldsymbol{b}_{2}=0$ ， $\left\|\boldsymbol{b}_{1}\right\|=1=\left\|\boldsymbol{b}_{2}\right\|$

我们将在第12章和第10章讨论支持向量机和主成分分析时利用标准正交基的概念。

3.6 正交补

定义了正交性之后，我们现在来看看彼此正交的向量空间。这将在第十章从几何角度讨论线性降维时发挥重要作用。
在这里插入图片描述
图 3.7三维向量空间中的平面 $U$ 可以由它的法向量来描述，法向量张成其正交补 $U^⊥$ 空间

考虑一个 $D$ 维向量空间 $V$ 和 $M$ 维子空间 $\subseteq V$ ，那么它的正交补 $U^{\perp}$ 是 $V$ 的一个 $(D - M)$ 维的子空间，这个子空间包含 $V$ 中与 $U$ 中每一个向量正交的向量。并且， $\cap U^{\perp}=\{\mathbf{0}\}$ ，所以任何向量 $\boldsymbol{x} \in V$ 能被唯一分解为：
$\boldsymbol{x}=\sum_{m=1}^{M} \lambda_{m} \boldsymbol{b}_{m}+\sum_{j=1}^{D-M} \psi_{j} \boldsymbol{b}_{j}^{\perp}, \quad \lambda_{m}, \psi_{j} \in \mathbb{R}$
其中 $\left(\boldsymbol{b}_{1}, \ldots, \boldsymbol{b}_{M}\right)$ 为 $U$ 的基， $\left(\boldsymbol{b}_{1}^{\perp}, \ldots, \boldsymbol{b}_{D-M}^{\perp}\right)$ 为 $U^{\perp}$ 的基。

因此，正交补也可以用来描述三维向量空间中的平面 $U$ （二维子空间）。更具体地说， $\|\boldsymbol{w}\|=1$ 的向量 $w$ 若与平面 $U$ 正交，则它是 $U^{\perp}$ 的基向量。如图3.7。所有与 $\boldsymbol{w}$ 正交的向量都必须（通过构造）位于平面 $U$ 中。向量 $\boldsymbol{w}$ 称为 $U$ 的法向量(normal vector)

在 $n$ 维向量空间和仿射空间中，通常可以用正交补来描述超平面。

3.7 函数的内积

到目前为止，我们研究了内积的性质来计算长度、角度和距离。我们主要研究有限维向量的内积。下面，我们将看到一个特殊的向量内积：函数的内积。

我们讨论的内积是对具有有限个元素的向量定义的。我们还可以把向量 $\in \mathbb{R}^{n}$ 看作一个有 $n$ 个函数值的函数。同时内积的概念可以推广到具有无穷多个元素的向量（无限可数）和连续值函数（无限不可数）。然后把各个分量的和(以式3.5为例)就可以变成一个积分。
两个函数 $\boldsymbol{u}: \mathbb{R} \rightarrow \mathbb{R}$ 和 $\boldsymbol{v}: \mathbb{R} \rightarrow \mathbb{R}$ 的内积可以被定为上下限分别为 $b<\infty$ 的定积分：
$\langle u, v\rangle:=\int_{a}^{b} u(x) v(x) d x$

与一般的内积一样，我们可以通过函数内积来定义范数和正交性。如果内积的值为0，则函数 $\boldsymbol{u}$ 和 $\boldsymbol{v}$ 是正交的。为了使前面的内积在数学上定义精确，我们需要考虑度量和积分的定义，从而得到Hilbert空间的定义。此外，与有限维向量上的内积不同，函数的内积可能会发散（具有无穷大的值）。所有这些都需要深入到实变函数和泛函分析中的一些更复杂的细节中，这在本书中我们没有涉及。
在这里插入图片描述
图 3.8 $f (x) = s i n (x) c o s (x)$

例 3.9 函数的内积

如果我们选择 $u = s i n (x)$ 和 $v = c o s (x)$ ，则 $f (x) = u (x) v (x)$ 的积分如图3.8所示。可以看到该函数是奇函数，即 $f (- x) = - f (x)$ 。因此，上下限为 $a=-\pi,b=\pi$ 的积分得到内积值为0。所以 $s i n$ 和 $c o s$ 为正交函数。

备注：

如果积分区间为 $-\pi$ 到 $\pi$ ，则函数集合：
$\{1, \cos (x), \cos (2 x), \cos (3 x), \ldots\}$
为正交的，即任何一对函数都是相互正交的。该函数集张成了一个函数的巨大的子空间，这个子空间上的函数，在 $[-\pi,\pi)$ 上是偶函数且具有周期性，而将函数投影到这个子空间是傅里叶级数背后的基本思想。
在概率和分布6.4.6中，我们将看到第二种非常规内积：随机变量的内积。