稀疏子空间聚类（Sparse Subspace Clustering, SSC）

不易撞的网名

于 2024-07-19 16:06:58 发布

阅读量664

点赞数 15

分类专栏：机器学习文章标签：聚类机器学习支持向量机

本文链接：https://blog.csdn.net/weixin_50569789/article/details/140529844

版权

225 篇文章 4 订阅

订阅专栏

稀疏子空间聚类（Sparse Subspace Clustering, SSC）是一种处理高维数据的聚类方法，特别适用于当数据分布在多个低维子空间上的情况。

SSC 利用了稀疏表示的概念来估计数据点之间的关系，并以此构建相似度矩阵，最终通过谱聚类技术将数据点分配到各自的子空间中。

假设有一组数据点集合 $\mathbf{X} = \{\mathbf{x}_1, \mathbf{x}_2, ..., \mathbf{x}_N\}$ ，其中 $\mathbf{x}_i \in \mathbb{R}^D$ 是高维空间中的点。

这些点分布在 $K$ 个低维子空间上，每个子空间的维数远小于数据点的原始维度，即 $d_k \ll D$ 。

稀疏表示是指在给定的字典中，使用尽可能少的非零元素来表示某个信号的过程。

在 SSC 中，这个“信号”就是数据点，而字典则是由数据集本身构成的。

换句话说，每个数据点都可以表示为其余数据点的加权和，权重向量称为稀疏表示系数。

对于数据点 $\mathbf{x}_i$ ，我们寻找一个稀疏系数向量 $\mathbf{z}_i$ ，使得 $\mathbf{x}_i$ 可以由其他数据点的线性组合来逼近，同时使 $\mathbf{z}_i$ 尽可能稀疏。

数学上，这个问题可以表示为以下优化问题：

$\min_{\mathbf{z}_i} \|\mathbf{x}_i - \mathbf{X}\mathbf{z}_i\|_2^2 + \lambda \|\mathbf{z}_i\|_1 \quad \text{s.t. } z_{ii} = 0,$

其中：

一旦我们得到了所有数据点的稀疏表示系数 $\mathbf{Z} = [\mathbf{z}_1, \mathbf{z}_2, ..., \mathbf{z}_N]$ ，我们可以构建一个相似度矩阵 $\mathbf{W}$ 来反映数据点之间的相似度。

通常， $\mathbf{W}$ 可以定义为 $\mathbf{Z}$ 的绝对值加上转置的绝对值，即：

$\mathbf{W} = |\mathbf{Z}| + |\mathbf{Z}^\top|,$

这里 $|\cdot|$ 表示取矩阵的元素绝对值。

有了相似度矩阵 $\mathbf{W}$ ，接下来的步骤是使用谱聚类来将数据点聚类到各自的子空间中。

谱聚类首先会构建图拉普拉斯矩阵 $\mathbf{L}$ ，然后计算其特征向量，并通过 K-means 或其他聚类算法将特征向量聚类。

$\mathbf{L} = \mathbf{D} - \mathbf{W},$

其中 $\mathbf{D}$ 是度矩阵，其对角线元素是 $\mathbf{W}$ 的行和。

SSC 的目标公式可以概括为上述的稀疏表示问题，它通过寻找稀疏系数矩阵来揭示数据点之间的内在子空间结构。

通过谱聚类，SSC 最终将数据点划分到它们所属的子空间中，即使在高维和噪声环境下也能保持良好的性能。

请注意，实际应用中，求解稀疏表示问题可能需要使用特定的优化算法，例如基追踪（Basis Pursuit）、正交匹配追踪（Orthogonal Matching Pursuit）或交替方向乘子法（Alternating Direction Method of Multipliers, ADMM）。

关注

专栏目录