核稀疏子空间聚类方法(Kernel Sparse Subspace Clustering, KSSC)

核稀疏子空间聚类方法(Kernel Sparse Subspace Clustering, KSSC)

引言

核稀疏子空间聚类(KSSC)是稀疏子空间聚类(SSC)的一种扩展,旨在处理非线性可分的数据

通过引入核技巧,KSSC 能够在高维特征空间中找到数据点的稀疏表示,即使在原始特征空间中数据点可能处于不同的低维子空间中。

这种方法特别适合于处理具有复杂结构的高维数据。

基础理论

在 SSC 中,数据点的稀疏表示是在原始特征空间中计算的。

然而,在许多情况下,数据点的真实关系可能在高维空间中更加明显,尤其是在数据点分布于非线性子空间中时。

核技巧允许我们在一个更高维的特征空间中操作,而无需显式地计算这个空间中的特征映射。

核函数

核函数 k ( ⋅ , ⋅ ) k(\cdot, \cdot) k(,) 是一种度量两个数据点在高维特征空间中相似度的函数,而不必显式地知道特征映射。

常见的核函数包括高斯核、多项式核、线性核等。

KSSC 的数学模型

对于给定的数据集 X = { x 1 , x 2 , … , x N } \mathbf{X} = \{\mathbf{x}_1, \mathbf{x}_2, \ldots, \mathbf{x}_N\} X={x1,x2,,xN},其中 x i ∈ R d \mathbf{x}_i \in \mathbb{R}^d xiRd,KSSC 的目标是找到一个稀疏表示矩阵 Z \mathbf{Z} Z,使得每个数据点 x i \mathbf{x}_i xi可以表示为其余数据点在高维特征空间中的线性组合。数学上,这可以表示为以下优化问题:

min ⁡ Z 1 2 ∑ i = 1 N ∥ ϕ ( x i ) − ∑ j = 1 N k ( x i , x j ) z i j ϕ ( x j ) ∥ 2 + λ ∑ i = 1 N ∑ j = 1 N ∣ z i j ∣ \min_{\mathbf{Z}} \frac{1}{2} \sum_{i=1}^N \left\| \phi(\mathbf{x}_i) - \sum_{j=1}^N k(\mathbf{x}_i, \mathbf{x}_j) z_{ij} \phi(\mathbf{x}_j) \right\|^2 + \lambda \sum_{i=1}^N \sum_{j=1}^N |z_{ij}| Zmin21i=1N ϕ(xi)j=1Nk(xi,xj)zijϕ(xj) 2+λi=1Nj=1Nzij

其中:

  • ϕ ( ⋅ ) \phi(\cdot) ϕ()从原始特征空间到高维特征空间的映射函数;
  • k ( x i , x j ) k(\mathbf{x}_i, \mathbf{x}_j) k(xi,xj) 是核函数,用于计算 x i \mathbf{x}_i xi x j \mathbf{x}_j xj 在高维特征空间中的相似度;
  • Z \mathbf{Z} Z N × N N \times N N×N稀疏表示矩阵;
  • λ \lambda λ 是正则化参数,用于控制稀疏性。
优化问题简化

由于直接在高维特征空间中操作可能计算成本高昂,KSSC 实际上是通过核矩阵 K K K 来解决问题的,其中 K i j = k ( x i , x j ) K_{ij} = k(\mathbf{x}_i, \mathbf{x}_j) Kij=k(xi,xj)。这样,原始的优化问题可以简化为:

min ⁡ Z 1 2 ∑ i = 1 N ∥ x i − ∑ j = 1 N k ( x i , x j ) z i j x j ∥ 2 + λ ∑ i = 1 N ∑ j = 1 N ∣ z i j ∣ \min_{\mathbf{Z}} \frac{1}{2} \sum_{i=1}^N \left\| \mathbf{x}_i - \sum_{j=1}^N k(\mathbf{x}_i, \mathbf{x}_j) z_{ij} \mathbf{x}_j \right\|^2 + \lambda \sum_{i=1}^N \sum_{j=1}^N |z_{ij}| Zmin21i=1N xij=1Nk(xi,xj)zijxj 2+λi=1Nj=1Nzij

但是,由于 k ( x i , x j ) k(\mathbf{x}_i, \mathbf{x}_j) k(xi,xj) 已经是高维特征空间中的内积,我们进一步可以简化为:

min ⁡ Z 1 2 ∑ i = 1 N ∥ x i − X ( K Z ) i ∥ 2 + λ ∑ i = 1 N ∑ j = 1 N ∣ z i j ∣ \min_{\mathbf{Z}} \frac{1}{2} \sum_{i=1}^N \left\| \mathbf{x}_i - \mathbf{X} (\mathbf{KZ})_i \right\|^2 + \lambda \sum_{i=1}^N \sum_{j=1}^N |z_{ij}| Zmin21i=1NxiX(KZ)i2+λi=1Nj=1Nzij

这里, ( K Z ) i (\mathbf{KZ})_i (KZ)i 表示矩阵 K Z \mathbf{KZ} KZ 的第 i i i 行。

目标公式

KSSC 的目标公式可以总结为:

min ⁡ Z 1 2 ∥ X − X K Z ∥ F 2 + λ ∥ Z ∥ 1 \min_{\mathbf{Z}} \frac{1}{2} \|\mathbf{X} - \mathbf{XKZ}\|_F^2 + \lambda \|\mathbf{Z}\|_1 Zmin21XXKZF2+λZ1

其中:

  • ∥ ⋅ ∥ F \|\cdot\|_F F 是 Frobenius 范数,度量矩阵元素的平方和的平方根;
  • ∥ ⋅ ∥ 1 \|\cdot\|_1 1 是 L1 范数,度量矩阵元素的绝对值和,用于促进稀疏性。
后处理与聚类

一旦找到稀疏表示矩阵 Z \mathbf{Z} Z,就可以构建相似度矩阵 W \mathbf{W} W 并使用谱聚类技术对数据点进行聚类。相似度矩阵可以是 Z \mathbf{Z} Z 的绝对值矩阵,或者更常见的是,使用 ∣ Z ∣ + ∣ Z ⊤ ∣ |\mathbf{Z}| + |\mathbf{Z}^\top| Z+Z 来构建。

结论

核稀疏子空间聚类(KSSC)是一种先进的子空间聚类方法,它通过核技巧在高维特征空间中寻找数据点的稀疏表示,从而解决了非线性可分数据的聚类问题。

KSSC 的核心在于利用核函数将数据点映射到高维空间,然后在这个空间中寻找数据点之间的稀疏表示,最终通过谱聚类实现数据点的有效聚类。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不易撞的网名

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值