非线性子空间学习

不易撞的网名

已于 2024-06-29 21:01:58 修改

阅读量1.1k

点赞数 31

分类专栏：机器学习文章标签：学习机器学习人工智能

于 2024-06-29 21:01:27 首次发布

本文链接：https://blog.csdn.net/weixin_50569789/article/details/140068119

版权

机器学习专栏收录该内容

229 篇文章 8 订阅

订阅专栏

文章目录

非线性子空间学习是一类 降维技术，旨在通过 非线性映射将高维数据转换到低维空间，从而发现数据中的潜在结构、减少冗余信息，并可能增强数据的可分离性，适用于 分类、 聚类、可视化等多种任务。
与线性降维方法（如PCA、LDA）相比，非线性方法能更好地捕捉 复杂的数据分布。以下是一些常用的非线性子空间学习方法及其相关公式。

1. 核主成分分析（Kernel PCA, KPCA）

核方法通过将数据映射到高维特征空间，然后在该空间执行线性操作，实现了在原始输入空间中的非线性变换。KPCA是PCA的非线性扩展。

公式:
- 核函数 $\phi(x)^T \phi(y)$ ，其中 $\phi(\cdot)$ 是将输入数据 $x$ 映射到高维特征空间的函数。
- 中心化核矩阵 $K_c = K - 1_n K - K 1_n^T + 1_n K 1_n^T$ ，其中 $K$ 是核矩阵， $1_n$ 是长度为 $n$ 的全1向量。
- 寻找最大的 $\alpha$ 使得 $\alpha^T K_c \alpha$ 最小，同时约束 $\alpha^T 1_n = 0$ （保证数据的无偏性），解得 $\alpha$ 后，低维表示为 $\alpha K$ 。

例子

核主成分分析（KPCA）是一个非线性降维技术，通过将原始数据映射到一个高维特征空间并在该空间执行PCA，来捕获数据中的非线性结构。以下是KPCA的一个具体计算示例，我们将使用一个简化的数据集和高斯核函数（RBF核）来进行说明。

数据集

假设有以下二维数据集，属于同一类别，但我们希望通过KPCA来发现潜在的非线性结构：

样本编号	$x_1$	$x_2$
1	2	3
2	3	2
3	4	6
4	6	5
5	8	7

计算步骤

定义核函数：我们选择高斯核函数（RBF核）来映射数据到高维空间。RBF核函数定义为：
$k(x_i, x_j) = \exp\left(-\gamma ||x_i - x_j||^2\right)$
其中， $x_i - x_j||^2$ 是样本 $x_i$ 和 $x_j$ 之间的欧氏距离的平方 $，$ \gamma$ 是核宽度参数，控制了映射的非线性程度。
计算核矩阵：基于RBF核函数，计算数据集中的所有点对之间的核相似度，形成核矩阵 ( K )。对于上述数据集，核矩阵 ( K ) 为：

$\begin{pmatrix} k(1, 1) & k(1, 2) & k(1, 3) & k(1, 4) & k(1, 5) \\ k(2, 1) & k(2, 2) & k(2, 3) & k(2, 4) & k(2, 5) \\ \vdots & \vdots & \vdots & \vdots & \vdots \\ k(5, 1) & k(5, 2) & k(5, 3) & k(5, 4) & k(5, 5) \end{pmatrix}$

假设 $\gamma = 1$ ，计算得：

$\begin{pmatrix} 1 & \exp(-2) & \exp(-8) & \exp(-16) & \exp(-24) \\ \exp(-2) & 1 & \exp(-4) & \exp(-14) & \exp(-22) \\ \exp(-8) & \exp(-4) & 1 & \exp(-10) & \exp(-16) \\ \exp(-16) & \exp(-14) & \exp(-10) & 1 & \exp(-8) \\ \exp(-24) & \exp(-22) & \exp(-16) & \exp(-8) & 1 \end{pmatrix}$

中心化核矩阵：为了去除数据的平移影响，需要对核矩阵进行中心化处理，形成中心化核矩阵 $K_c$ ：
$K_c = K - \mathbf{1}\mathbf{1}^TK - K\mathbf{1}\mathbf{1}^T + \mathbf{1}\mathbf{1}^TK\mathbf{1}\mathbf{1}^T$
其中， $\mathbf{1}$ 是一个所有元素均为1的列向量，大小与数据集的行数相同。
计算特征值和特征向量：对中心化后的核矩阵 $K_c$ 进行特征分解，找到最大的几个特征值对应的特征向量。假设我们想要降到一维空间，那么就取最大的那个特征值 $\lambda_1$ 及其对应的特征向量 $\alpha_1$ 。
构造低维表示：低维空间的表示 ( Z ) 可以通过原数据集 ( X ) 与特征向量 $\alpha$ 的内积得到，即：
$z_i = \sum_{j=1}^{n} \alpha_j k(x_i, x_j), \quad \text{for } i = 1, 2, ..., n$
其中，( n ) 是数据集中的样本数， $z_i$ 是第 ( i ) 个样本在降维后的坐标。

结果解释

通过上述步骤，我们得到了每个样本在降维后的一维坐标 $z_i$ ，这些坐标反映了原始数据在非线性子空间中的位置，可能揭示了数据间的非线性关系。实际应用中，会根据具体情况调整核函数的参数 $\gamma$ 以及选择降维的维度数。

2. 局部线性嵌入（Locally Linear Embedding, LLE）

LLE试图保持每个点与其邻居间的线性关系，在低维空间中重构这种局部结构。

公式:
- 寻找权重 $W_{ij}$ 使得 $x_i \approx \sum_{j \in N(i)} W_{ij} x_j$ ，其中 $N (i)$ 是点 $i$ 的邻域。
- 最优化问题： $\min_Y \sum_i ||y_i - \sum_{j \in N(i)} W_{ij} y_j||^2$ ，在保持 $Y^TY = I$ 的约束下，其中 $Y$ 是低维嵌入。
- 解决方案通常涉及解决一系列的优化问题和约束条件。

例子

局部线性嵌入（LLE）是一种非线性降维技术，它通过在高维空间中寻找每个数据点的局部线性重构权重，然后在低维空间中保持这些权重关系来保持数据的局部结构。下面是LLE的一个简单计算示例。

数据集

假设我们有一个简单的二维数据集，包含四个点 (X)：

样本编号	$x_1$	$x_2$
1	0	0
2	1	1
3	2	1
4	3	0

计算步骤

定义邻域：首先确定每个点的邻域，比如选择每个点最近的 (k) 个邻居，这里 (k=2)。由于数据集较小，我们简单地选择每个点的直接邻居（在实际应用中，可能需要使用更复杂的距离度量和选择策略）。
计算权重：对于每个点 $x_i$ ，我们希望找到一组权重 $W_{ij}$ ，使得 $x_i$ 可以通过其邻居 $x_j$ 线性组合近似。即解优化问题：

$\min_{W_{ij}} \sum_{j \in N(i)} W_{ij} ||x_i - x_j||^2 \quad \text{s.t.} \quad \sum_{j \in N(i)} W_{ij} = 1, W_{ij} \geq 0$

这个公式是局部线性嵌入（LLE, Locally Linear Embedding）的核心优化目标，用于计算每个数据点 $x_i$ 在其局部邻域 $N (i)$ 内的线性重构权重 $W_{ij}$ 。下面是对公式的详细解释：

公式意义

$\min_{W_{ij}} \sum_{j \in N(i)} W_{ij} ||x_i - x_j||^2 \quad \text{s.t.} \quad \sum_{j \in N(i)} W_{ij} = 1, W_{ij} \geq 0$

目标函数:
- $min_{W_{ij}}$ 表示我们要最小化的目标是关于权重 $W_{ij}$ 的。
- $\sum_{j \in N(i)} W_{ij} ||x_i - x_j||^2$ 是对每一个点 $x_i$ 的表达式，其中 $N (i)$ 表示点 $x_i$ 的邻域，即距离 $x_i$ 最近的几个点的集合。
- 这个求和表达了点 $x_i$ 通过其邻域内的点 $x_j$ 来线性重构自身的误差的平方和。目标是最小化这个误差，意味着我们希望每个点能够很好地被其邻域内的点线性表示。
约束条件:
- $\sum_{j \in N(i)} W_{ij} = 1$ ：这个条件确保了权重的归一化，即所有邻域内点对 $x_i$ 的贡献总和为1。这意味着 $x_i$ 通过其邻居的加权组合来近似，权重之和等于1保证了重构的有效性，避免了过度放大或缩小。`
- $W_{ij} \geq 0$ ：要求所有的权重 $W_{ij}$ 都是非负的，这是因为权重代表了贡献度，负值没有实际意义，而且在寻求重构点 $x_i$ 时，我们希望邻域内的点是正向帮助的。

对于这个简单的例子，手动计算每个点的权重：

对于点1，其邻居是点2，理想情况下 $W_{12} = 1$ （如果只考虑最简单的线性插值）。
对于点2，其邻居是点1和点3，假设等权重，则 $W_{21} = W_{23} = 0.5$ 。
对于点3，其邻居是点2和点4，同样假设等权重，则 $W_{32} = W_{34} = 0.5$ 。
对于点4，其邻居是点3，因此 $W_{43} = 1$ 。

重建误差最小化：虽然在这个简化的例子中，我们直接指定了权重，实际操作中，这些权重需要通过优化算法求解。但在本例中，我们继续基于上述分配的简单权重。
降维：有了这些权重后，下一步是在低维空间中找到新的坐标 (Y)，使得低维空间中的点能够通过类似的权重组合重构回原始空间。设 (Y) 为低维嵌入，我们希望最小化重构误差：

$\min_Y \sum_i ||y_i - \sum_{j \in N(i)} W_{ij} y_j||^2$

由于这个例子过于简化，我们不进行详细的数学优化求解，但在实际操作中，这一步骤通常涉及迭代优化算法，如梯度下降。

结论

对于这个非常基础的例子，LLE的过程主要是为了演示思想，实际应用中LLE涉及更复杂的数学和计算过程，尤其是计算权重和优化低维坐标时。在真实数据集中，我们会使用算法自动确定权重并优化低维嵌入，可能还会涉及对邻域的选择、正则化项的添加等策略，以确保算法的稳定性和有效性。

3. 等距映射（Isomap）

Isomap是基于图论的降维方法，它首先构建数据点间的邻接图，然后计算两点间的最短路径长度，最后通过多维缩放（MDS）在低维空间中保持这些距离。

公式:
- 构建邻接图，计算所有对之间最短路径的距离矩阵 ( D )。
- 解多维缩放问题： $\min_Z \sum_{i,j} (D_{ij} - ||z_i - z_j||)^2$ ，其中 $Z$ 是低维坐标。

4. t-分布邻域嵌入算法（t-SNE）

t-SNE通过使用t-分布作为相似性度量，来优化高维和低维空间中点对之间的概率分布匹配。

公式:
- 高维空间中的相似度： $p_{ij} = \frac{(1 + ||x_i - x_j||^2)^{-1}}{\sum_{k \neq l}(1 + ||x_k - x_l||^2)^{-1}}$ ，使用高斯核。
- 低维空间中的相似度： $q_{ij} = \frac{(1 + ||y_i - y_j||^2)^{-1}}{\sum_{k \neq l}(1 + ||y_k - y_l||^2)^{-1}}$ ，但使用t-分布核。
- 最小化KL散度： $\min_Q KL(P||Q) = \sum_{i,j} p_{ij} \log \frac{p_{ij}}{q_{ij}}$ ，通过梯度下降优化 ( Y )。