基于低秩表示(Low-Rank Representation, LRR)的子空间聚类方法
引言
低秩表示(LRR)是一种用于处理高维数据,尤其是当数据分布在多个低维子空间上时
的先进方法。
LRR 的核心思想是,尽管数据在高维空间中看起来杂乱无章,但它们实际上可以在低维子空间中被很好地表示。
LRR 通过构建一个低秩矩阵
来揭示这种潜在的低维结构,从而实现有效的子空间聚类。
原理与步骤
LRR 的基本目标是找到一个低秩矩阵
C
C
C,它能够以最简洁的方式表示
数据集
X
\mathbf{X}
X 中的数据点之间的线性关系
。
这里的“最简洁”意味着矩阵
C
C
C 的秩
应该尽可能低,以反映数据点所处的低维子空间结构。
数学模型
假设我们有一组数据点 X = { x 1 , x 2 , … , x N } \mathbf{X} = \{\mathbf{x}_1, \mathbf{x}_2, \ldots, \mathbf{x}_N\} X={x1,x2,…,xN},其中每个数据点 x i \mathbf{x}_i xi 都是 d d d 维的向量。LRR 的目标是找到一个矩阵 C C C 和一个误差矩阵 E E E,使得:
X = X C + E \mathbf{X} = \mathbf{X}C + E X=XC+E
这里的
C
C
C 是一个低秩矩阵
,而
E
E
E 是噪声或误差项
。矩阵
C
C
C 的行和列分别对应于数据集中的数据点,
C
i
j
C_{ij}
Cij 表示数据点
x
i
\mathbf{x}_i
xi 如何通过数据点
x
j
\mathbf{x}_j
xj 的线性组合来表示。
目标函数
LRR 的目标函数是:
min C , E ∥ C ∥ ∗ + λ ∥ E ∥ 1 s.t. X = X C + E \min_{C,E} \|C\|_* + \lambda \|E\|_1 \quad \text{s.t. } \mathbf{X} = \mathbf{X}C + E C,Emin∥C∥∗+λ∥E∥1s.t. X=XC+E
其中:
-
∥
C
∥
∗
\|C\|_*
∥C∥∗ 是矩阵
C
C
C 的
核范数
(nuclear norm),它相当于矩阵奇异值的和
,是矩阵秩的一个松弛形式; -
∥
E
∥
1
\|E\|_1
∥E∥1 是误差矩阵
E
E
E 的
L1 范数
,用于促进稀疏性
,即鼓励 E E E 中大多数元素为零,以减少噪声的影响; - λ \lambda λ 是一个正则化参数,用于平衡低秩性和稀疏性。
约束条件
除了上述目标函数外,LRR 还包含一些约束条件,例如:
diag ( C ) = 0 , C 1 = 1 \text{diag}(C) = 0, \quad C\mathbf{1} = \mathbf{1} diag(C)=0,C1=1
其中:
-
diag
(
C
)
=
0
\text{diag}(C) = 0
diag(C)=0 表示矩阵
C
C
C 的对角线元素应为零,
这是因为数据点不能用自己表示自己;
-
C
1
=
1
C\mathbf{1} = \mathbf{1}
C1=1 表示矩阵
C
C
C 的每行和为 1,
这保证了数据点的表示是通过其他数据点的线性组合给出的。
聚类
一旦找到矩阵 C C C,就可以使用谱聚类算法来对数据点进行聚类。
谱聚类首先会构建一个图拉普拉斯矩阵
L
\mathbf{L}
L,然后计算其特征向量
,并通过 K-means 或其他聚类算法将特征向量聚类。
L = D − ∣ C ∣ \mathbf{L} = \mathbf{D} - |C| L=D−∣C∣
其中 D \mathbf{D} D 是度矩阵,其对角线元素等于 C C C 的行和, ∣ C ∣ |C| ∣C∣ 表示矩阵 C C C 的绝对值。
总结
基于低秩表示(LRR)的子空间聚类方法通过构建低秩矩阵来揭示数据点之间的潜在低维子空间结构,即使在存在噪声和异常值的情况下也能保持较好的聚类效果。
LRR 不仅可以用于聚类,还可以用于数据降噪、异常检测和完成缺失值等应用。通过将数据点表示为其他数据点的线性组合,LRR 能够在高维数据集中识别出潜在的低维子空间,从而实现高效和准确的聚类。