投影算子（Projection Operator）的定义、性质、分类以及应用

xy_optics

于 2025-03-18 14:38:40 发布

阅读量1.7k

点赞数 17

分类专栏： optimization 数学基础文章标签：分类数据挖掘人工智能 optimization 机器学习

本文链接：https://blog.csdn.net/xy_optics/article/details/146340869

版权

optimization 同时被 2 个专栏收录

22 篇文章

订阅专栏

数学基础

3 篇文章

订阅专栏

文章目录

1. 投影算子的定义
2. 投影算子的几何意义
3. 一些简单的例子
4. 投影算子的性质
5. 投影算子的分类
- 5.1、正交投影算子
- 5.2、一般投影（非正交投影）
6. 投影算子的矩阵表示
- 6.1、一维子空间的投影
- 6.2、低维空间中的投影
7. 投影算子的应用

1. 投影算子的定义

投影算子 $P$ 是作用在向量空间 $V$ 上的一个线性算子，满足：
$P^2 = P$
也就是说，投影算子满足幂等性，即作用两次与作用一次的效果相同。

如果一个向量 $v$ 经过投影 $P$ 之后变成 $P v$ ，那么再应用一次投影 $P (P v)$ 仍然是 $P v$ ，不会再改变。

2. 投影算子的几何意义

投影算子可以看作是将向量映射到某个子空间，并且对于已经在该子空间的向量，投影算子不会改变它们。

例：

设 $U$ 是 $\mathbb{R}^3$ 中的一个平面（例如 $z = 0$ 的平面）。
设 $P$ 是把任意向量 $(x, y, z)$ 映射到 $(x, y, 0)$ 的投影算子。
你可以验证： $P (x, y, z) = (x, y, 0)$ $P^2(x, y, z) = P(x, y, 0) = (x, y, 0)$ 这说明 $P^2 = P$ ，所以 $P$ 是一个投影算子。

3. 一些简单的例子

例 1：二维平面上的投影

设我们在二维平面上，想要把任意向量 $v$ 投影到 $x$ -轴上（即去掉 $y$ 分量）。

我们的向量空间是 $\mathbb{R}^2$ 。
目标子空间是 $x$ -轴（即 $y = 0$ ）。
投影算子 $P$ 应该保持 $x$ 分量不变，并把 $y$ 分量变为 0。

投影矩阵可以写成：
$\begin{bmatrix} 1 & 0 \\ 0 & 0 \end{bmatrix}$
现在，我们选择一个向量：
$\begin{bmatrix} 3 \\ 4 \end{bmatrix}$
计算投影：
$\begin{bmatrix} 1 & 0 \\ 0 & 0 \end{bmatrix} \begin{bmatrix} 3 \\ 4 \end{bmatrix} = \begin{bmatrix} 3 \\ 0 \end{bmatrix}$

原向量 $v = (3, 4)$ 在 $x$ -轴上的投影是 $(3, 0)$ 。
投影算子的性质：
幂等性：如果再对 $(3, 0)$ 施加一次投影： $\begin{bmatrix} 3 \\ 0 \end{bmatrix} = \begin{bmatrix} 3 \\ 0 \end{bmatrix}$ 结果不变，验证了 $P^2 = P$ 。

在这里插入图片描述

例 2：投影到一条任意方向的直线

我们现在考虑把一个向量投影到一个方向向量 $u$ 代表的直线上。

设单位方向向量：
$\frac{1}{\sqrt{2}} \begin{bmatrix} 1 \\ 1 \end{bmatrix}$
我们想把向量 $\begin{bmatrix} 3 \\ 4 \end{bmatrix}$ 投影到 $u$ 方向。

投影公式：
$\cdot v) u$
计算内积：
$\cdot v = \frac{1}{\sqrt{2}}(3 + 4) = \frac{7}{\sqrt{2}}$
投影：
$\frac{7}{\sqrt{2}} \cdot \frac{1}{\sqrt{2}} \begin{bmatrix} 1 \\ 1 \end{bmatrix} = \frac{7}{2} \begin{bmatrix} 1 \\ 1 \end{bmatrix} = \begin{bmatrix} 3.5 \\ 3.5 \end{bmatrix}$

原向量 $v = (3, 4)$ 投影到方向 $u$ 上得到 $(3.5, 3.5)$ 。
你可以验证： $P v$ 是 $u$ 方向的一个倍数，说明它被正确投影到了直线上。

在这里插入图片描述

上面用到的向量投影公式的推导

设 $u$ 是一个单位向量（即 $∣∣ u ∣∣ = 1$ ），我们想要找到 $v$ 在 $u$ 方向上的投影。

向量 $v$ 在 $u$ 方向的投影，是 $v$ 在 $u$ 方向的标量分量乘以 $u$ ：
$\text{Proj}_u (v) = \left( \frac{v \cdot u}{||u||^2} \right) u$
由于 $u$ 是单位向量，满足 $u||^2 = 1$ ，所以公式简化为：
$\cdot u) u$

$\cdot u$ ：计算向量 $v$ 在 $u$ 方向上的投影长度（标量）。
乘以 $u$ ：将该标量转换回一个向量，方向与 $u$ 相同。

换句话说，我们把 $v$ 的部分分解成沿 $u$ 方向的分量，并去掉与 $u$ 正交的分量。

如果 $u$ 不是单位向量（即 $\neq 1$ ），投影公式需要调整为：
$\left( \frac{v \cdot u}{u \cdot u} \right) u$
因为在这种情况下，单位化 $u$ 需要除以 $u||^2$ 。

这个更一般的公式适用于任何向量 $u$ ，无论是否归一化。

例 3：三维空间中投影到一个平面

设我们在三维空间中，想要把向量 $\begin{bmatrix} 1 \\ 2 \\ 3 \end{bmatrix}$ 投影到 $x y$ -平面上（即去掉 $z$ 分量）。

投影矩阵：
$\begin{bmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 0 \end{bmatrix}$
计算投影：
$\begin{bmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 0 \end{bmatrix} \begin{bmatrix} 1 \\ 2 \\ 3 \end{bmatrix} = \begin{bmatrix} 1 \\ 2 \\ 0 \end{bmatrix}$

原向量 $(1, 2, 3)$ 被投影到 $x y$ -平面上，变成 $(1, 2, 0)$ 。
该投影满足幂等性： $\begin{bmatrix} 1 \\ 2 \\ 0 \end{bmatrix} = \begin{bmatrix} 1 \\ 2 \\ 0 \end{bmatrix}$

4. 投影算子的性质

投影算子 $P$ 具有以下重要性质：

4.1、幂等性（Idempotency）： $P^2 = P$ 。

4.2、特征值

投影算子的特征值只能是 0 或 1。

特征值的求解来自特征方程：
$\lambda v$
由于 $P^2 = P$ ，可推出：
$P^2 v = P v = \lambda v$
即：
$\lambda^2 v = \lambda v$
因此，特征值 $\lambda$ 只能取 0 或 1。

特征值 $1$ 的特征向量：被正确投影的向量，即 投影目标子空间中的向量，投影后不变。
特征值 $0$ 的特征向量：被完全投影到零的向量，即 正交补空间的向量，它们的投影结果是零。

例

考虑投影矩阵：
$\begin{bmatrix} 1 & 0 \\ 0 & 0 \end{bmatrix}$
求特征值，我们解：
$\text{det}(P - \lambda I) = \begin{vmatrix} 1 - \lambda & 0 \\ 0 & -\lambda \end{vmatrix} = (1 - \lambda)(-\lambda) = 0$
解得特征值：
$\lambda = 0 \quad \text{或} \quad \lambda = 1$

对应 $\lambda = 1$ 的特征向量是 $\begin{bmatrix} x \\ 0 \end{bmatrix}$ ，表示 $x$ -轴上的向量，它们的投影不变。
对应 $\lambda = 0$ 的特征向量是 $\begin{bmatrix} 0 \\ y \end{bmatrix}$ ，表示 $y$ -轴上的向量，它们被投影到零。

投影算子的特征值只能是 0 或 1。
这可以从特征方程 $P^2 v = P v$ 推导出，即 $\lambda v$ ，解得 $\lambda = 0$ 或 $\lambda = 1$ 。
对应于特征值 1 的特征向量是 投影子空间中的向量。
对应于特征值 0 的特征向量是 投影到零的向量，即正交补空间的向量。

4.3、线性性

若 $P$ 是线性算子，则对任意 $\alpha, \beta \in \mathbb{R}$ 或 $\mathbb{C}$ ，有： $P(\alpha v + \beta w) = \alpha P(v) + \beta P(w)$

例

考虑投影矩阵：
$\begin{bmatrix} 1 & 0 \\ 0 & 0 \end{bmatrix}$
给定两个向量：
$\begin{bmatrix} 2 \\ 3 \end{bmatrix}, \quad w = \begin{bmatrix} -1 \\ 4 \end{bmatrix}$
以及两个标量 $\alpha = 2, \beta = -1$ ，验证：
$(\alpha v + \beta w) = P \left( 2 \begin{bmatrix} 2 \\ 3 \end{bmatrix} + (-1) \begin{bmatrix} -1 \\ 4 \end{bmatrix} \right)$
计算：
$\alpha v + \beta w = \begin{bmatrix} 4 \\ 6 \end{bmatrix} + \begin{bmatrix} 1 \\ -4 \end{bmatrix} = \begin{bmatrix} 5 \\ 2 \end{bmatrix}$
另一方面：
$\alpha P(v) + \beta P(w) = 2 P \begin{bmatrix} 2 \\ 3 \end{bmatrix} + (-1) P \begin{bmatrix} -1 \\ 4 \end{bmatrix}$
两边相等，验证了线性性。

4.4、零空间（Kernel）和像空间（Image）

投影算子将整个空间 $V$ 分解为两个子空间：

零空间（Ker§）：被投影到 0 的所有向量。
像空间（Im§）：投影的目标子空间。

例

还是使用投影矩阵：
$\begin{bmatrix} 1 & 0 \\ 0 & 0 \end{bmatrix}$

零空间 $\ker(P)$ ：由 $P v = 0$ 得：
$\begin{bmatrix} 1 & 0 \\ 0 & 0 \end{bmatrix} \begin{bmatrix} x \\ y \end{bmatrix} = \begin{bmatrix} 0 \\ 0 \end{bmatrix}$
这要求 $x = 0$ ，即：
$\ker(P) = \left\{ \begin{bmatrix} 0 \\ y \end{bmatrix} \right\}$
这对应 $y$ -轴，说明所有位于 $y$ -轴的向量都被投影到零。
像空间 $\text{Im}(P)$ ：任何投影的结果都形如：
$\begin{bmatrix} x \\ 0 \end{bmatrix}$
说明像空间是 $x$ -轴：
$\text{Im}(P) = \left\{ \begin{bmatrix} x \\ 0 \end{bmatrix} \right\}$
即所有投影的结果都落在 $x$ -轴上。

性质	解释	例子
幂等性	$P^2 = P$ ，多次投影不改变结果	投影到 $x$ -轴后，继续投影仍然是同一个点
特征值	只能是 0 或 1	$x$ -轴上的向量是特征值 1，对应子空间； $y$ -轴上的向量是特征值 0，对应被投影方向
线性性	$P(\alpha v + \beta w) = \alpha P v + \beta P w$	计算验证，满足线性性
零空间和像空间	$\ker(P)$ 是被投影方向， $\text{Im}(P)$ 是目标子空间	投影到 $x$ -轴， $y$ -轴上的向量被投影到 0

5. 投影算子的分类

5.1、正交投影算子

如果投影算子 $P$ 是 自伴随（Hermitian） 的，即满足：
$P^\dagger$
（在实数域上，等价于 $P = P^T$ ），那么它是正交投影算子。
这意味着投影后的子空间和正交补空间是正交的。

正交投影表示投影的方向与子空间的正交补空间是垂直的。
例如，在三维空间中，如果我们将一个向量投影到 $x y$ -平面上，那么投影是沿着 $z$ -轴方向正交进行的。

例：投影到一条直线上

设单位向量：
$\frac{1}{\sqrt{5}} \begin{bmatrix} 2 \\ 1 \end{bmatrix}$
我们要构造投影矩阵，将任意向量投影到 $u$ 方向上。投影矩阵的公式为：
$P = u u^T$
计算：
$uu^T = \left( \frac{1}{\sqrt{5}} \begin{bmatrix} 2 \\ 1 \end{bmatrix} \right) \left( \frac{1}{\sqrt{5}} \begin{bmatrix} 2 & 1 \end{bmatrix} \right) = \frac{1}{5} \begin{bmatrix} 2 \\ 1 \end{bmatrix} \begin{bmatrix} 2 & 1 \end{bmatrix} = \frac{1}{5} \begin{bmatrix} 4 & 2 \\ 2 & 1 \end{bmatrix} = \begin{bmatrix} 0.8 & 0.4 \\ 0.4 & 0.2 \end{bmatrix}$
这这个矩阵就是投影算子，它将向量投影到方向 $u$ 上，并且满足：
$P^T = P, \quad P^2 = P$
因此，它是 正交投影算子。

5.2、一般投影（非正交投影）

如果投影算子 $P$ 不是 Hermitian，即 $\neq P^\dagger$ ，则它不是正交投影。
这种投影的方向不一定与正交补空间垂直，可能是斜投影。

一般投影可能是倾斜的，即投影到的子空间和投影方向可能不是垂直的。
例如，在三维空间中，若我们投影到一个斜平面而不是 $x y$ -平面，投影方向可能不会是 $z$ -轴，而是某个倾斜方向。

例：斜投影

假设我们要将向量 $v$ 投影到一个子空间 $W$ ，该子空间的基向量为：
$w_1 = \begin{bmatrix} 1 \\ 1 \end{bmatrix}, \quad w_2 = \begin{bmatrix} 1 \\ -1 \end{bmatrix}$
若投影算子为：
$\begin{bmatrix} 1 & 2 \\ 0 & 1 \end{bmatrix}$
计算：
$P^T = \begin{bmatrix} 1 & 0 \\ 2 & 1 \end{bmatrix}$
显然 $\neq P^T$ ，说明该投影算子是非正交投影。

6. 投影算子的矩阵表示

6.1、一维子空间的投影

如果要将向量投影到一个单位向量 $u$ 方向上，投影矩阵的公式为：
$P = uu^T$
其中：

$u$ 是单位向量（即 $∣∣ u ∣∣ = 1$ ）。
$P$ 是投影矩阵，它将任何向量投影到 $u$ 方向上。

例：投影到 $x$ -轴

设单位向量：
$\begin{bmatrix} 1 \\ 0 \end{bmatrix}$
计算投影矩阵：
$u^T = \begin{bmatrix} 1 \\ 0 \end{bmatrix} \begin{bmatrix} 1 & 0 \end{bmatrix}$
这个矩阵的作用是：
$\begin{bmatrix} x \\ y \end{bmatrix} = \begin{bmatrix} 1 & 0 \\ 0 & 0 \end{bmatrix} \begin{bmatrix} x \\ y \end{bmatrix} = \begin{bmatrix} x \\ 0 \end{bmatrix}$
即将 $(x, y)$ 投影到 $x$ -轴上，去掉 $y$ 分量。

更一般的情况

如果 $u$ 是任意单位向量，例如：
$\frac{1}{\sqrt{5}} \begin{bmatrix} 2 \\ 1 \end{bmatrix}$
那么投影矩阵为：
$uu^T = \left( \frac{1}{\sqrt{5}} \begin{bmatrix} 2 \\ 1 \end{bmatrix} \right) \left( \frac{1}{\sqrt{5}} \begin{bmatrix} 2 & 1 \end{bmatrix} \right) = \frac{1}{5} \begin{bmatrix} 2 \\ 1 \end{bmatrix} \begin{bmatrix} 2 & 1 \end{bmatrix} = \frac{1}{5} \begin{bmatrix} 4 & 2 \\ 2 & 1 \end{bmatrix} = \begin{bmatrix} 0.8 & 0.4 \\ 0.4 & 0.2 \end{bmatrix}$
这个矩阵会将向量投影到 $u$ 方向上，而不一定是 $x$ -轴。

6.2、低维空间中的投影

如果我们想要将向量投影到一个 由多个向量张成的子空间，我们需要使用一个矩阵 $U$ 来计算投影矩阵。投影矩阵的公式为：
$P = U (U^T U)^{-1} U^T$
其中：

$U$ 是子空间的基矩阵。
$P$ 是投影到该子空间的投影矩阵。

例：投影到二维平面

假设我们在三维空间中，投影到 由两个向量张成的平面，设：
$\begin{bmatrix} 1 & 1 \\ 0 & 1 \\ 0 & 0 \end{bmatrix}$
这是一个 $\times 2$ 的矩阵，表示一个由 两个基向量：
$u_1 = \begin{bmatrix} 1 \\ 0 \\ 0 \end{bmatrix}, \quad u_2 = \begin{bmatrix} 1 \\ 1 \\ 0 \end{bmatrix}$
张成的平面。

计算投影矩阵：
$P = U (U^T U)^{-1} U^T$
首先，计算：
$U^T U = \begin{bmatrix} 1 & 0 & 0 \\ 1 & 1 & 0 \end{bmatrix} \begin{bmatrix} 1 & 1 \\ 0 & 1 \\ 0 & 0 \end{bmatrix}=\begin{bmatrix} 1 & 1 \\ 1 & 2\end{bmatrix}$
计算逆矩阵：
$(U^T U)^{-1} = \begin{bmatrix} 1 & 1 \\ 1 & 2 \end{bmatrix}^{-1} = \begin{bmatrix} 2 & -1 \\ -1 & 1 \end{bmatrix}$
然后计算：
$\begin{bmatrix} 2 & -1 \\ -1 & 1 \end{bmatrix} U^T$
经过矩阵乘法运算（可手算或用 Python/Numpy 计算），最终得到：
$\begin{bmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 0 \end{bmatrix}$
这个矩阵的作用是：

保持 $x$ 和 $y$ 方向上的分量不变。
将 $z$ 方向上的分量投影到零。

这个投影矩阵将三维空间中的向量投影到 $x y$ -平面上，即：
$\begin{bmatrix} x \\ y \\ z \end{bmatrix} = \begin{bmatrix} x \\ y \\ 0 \end{bmatrix}$

7. 投影算子的应用

最小二乘法（Least Squares Method）用于求解过约束方程组（即方程个数大于未知数个数的情况），其核心思想是：找到一个向量，使得它在给定数据的子空间中的投影与观测数据最接近。

我们使用 投影算子 来求解最小二乘问题。

设我们有一个过约束方程组：
$A x = b$
其中：

$A$ 是一个 $\times n$ 的矩阵，且 $m > n$ （即方程个数大于未知数个数）。
$x$ 是我们需要求解的向量（ $\times 1$ ）。
$b$ 是观测数据向量（ $\times 1$ ）。

由于 $A x = b$ 可能 没有精确解（因为 $b$ 可能不在 $A$ 列空间内），我们希望找到一个 最优近似解，即：
$\hat{b} = P_A b$
其中：

$\hat{b}$ 是 $b$ 在 $A$ 列空间上的正交投影。
$P_A$ 是投影矩阵，表示将 $b$ 投影到 $A$ 列空间。

投影矩阵的通用公式：
$P_A = A (A^T A)^{-1} A^T$
其中：

$A^T A$ 是一个 $\times n$ 矩阵（可逆）。
$A^T A)^{-1} A^T$ 计算的是最小二乘解的系数。

假设我们有两个数据点，拟合模型：
$y = m x + c$
给定数据：
$(1, 2), (2, 3), (3, 5)$
转换成线性方程：
$\begin{bmatrix} 1 & 1 \\ 2 & 1 \\ 3 & 1 \end{bmatrix} \begin{bmatrix} m \\ c \end{bmatrix} = \begin{bmatrix} 2 \\ 3 \\ 5 \end{bmatrix}$
这里：
$\begin{bmatrix} 1 & 1 \\ 2 & 1 \\ 3 & 1 \end{bmatrix}, \quad b = \begin{bmatrix} 2 \\ 3 \\ 5 \end{bmatrix}$
计算投影矩阵
计算：
$A^T A = \begin{bmatrix} 1 & 2 & 3 \\ 1 & 1 & 1 \end{bmatrix} \begin{bmatrix} 1 & 1 \\ 2 & 1 \\ 3 & 1 \end{bmatrix} = \begin{bmatrix} 1+4+9 & 1+2+3 \\ 1+2+3 & 1+1+1 \end{bmatrix} = \begin{bmatrix} 14 & 6 \\ 6 & 3 \end{bmatrix}$
求逆：
$(A^T A)^{-1} = \begin{bmatrix} 14 & 6 \\ 6 & 3 \end{bmatrix}^{-1}$
然后计算投影矩阵：
$P_A = A (A^T A)^{-1} A^T$