局部线性流形聚类(Locally Linear Manifold Clustering, LLMC)
引言
局部线性流形聚类(LLMC)是一种用于高维数据聚类
的先进方法,它基于流形学习
理论,旨在发现隐藏在高维数据背后的低维流形结构。
LLMC通过局部线性嵌入(LLE)来估计数据点的局部几何特性,然后利用这些信息构建一个`相似度矩阵``,最后应用谱聚类算法对数据点进行聚类。
这种方法特别适合于处理非线性分布
的数据集,其中数据点分布在复杂的流形上。
局部线性嵌入(LLE)
LLE是一种非线性降维技术
,它试图保持数据点在局部邻域内的相对位置不变。
对于数据集中的每个点
x
i
x_i
xi,LLE找到一组权重
w
i
w_i
wi,使得
x
i
x_i
xi可以被其
k
k
k个最近邻点的加权和近似表示
。权重
w
i
w_i
wi通过解决以下优化问题来确定:
min w i ∑ x j ∈ N k ( x i ) ∥ x i − ∑ x j ∈ N k ( x i ) w i j x j ∥ 2 \min_{w_i} \sum_{x_j \in N_k(x_i)} \left\| x_i - \sum_{x_j \in N_k(x_i)} w_{ij} x_j \right\|^2 wiminxj∈Nk(xi)∑ xi−xj∈Nk(xi)∑wijxj 2
其中:
-
N
k
(
x
i
)
N_k(x_i)
Nk(xi)是点
x
i
x_i
xi的
k
k
k个
最近邻点集合。
-
w
i
j
w_{ij}
wij是点
x
i
x_i
xi表示为点
x
j
x_j
xj的
权重。
-
∥
⋅
∥
\left\| \cdot \right\|
∥⋅∥表示
欧几里得范数。
为了确保权重
w
i
w_i
wi的唯一性
,加入一个约束条件:
∑ x j ∈ N k ( x i ) w i j = 1 \sum_{x_j \in N_k(x_i)} w_{ij} = 1 xj∈Nk(xi)∑wij=1
构建相似度矩阵
一旦为每个数据点
x
i
x_i
xi计算了权重
w
i
w_i
wi,就可以构建一个相似度矩阵
S
S
S,其中
S
i
j
S_{ij}
Sij反映了点
x
i
x_i
xi和点
x
j
x_j
xj之间的相似度
。相似度可以通过权重
w
i
j
w_{ij}
wij来定义,例如:
S i j = { w i j if j ∈ N k ( i ) w j i if i ∈ N k ( j ) 0 otherwise S_{ij} = \begin{cases} w_{ij} & \text{if } j \in N_k(i) \\ w_{ji} & \text{if } i \in N_k(j) \\ 0 & \text{otherwise} \end{cases} Sij=⎩ ⎨ ⎧wijwji0if j∈Nk(i)if i∈Nk(j)otherwise
谱聚类
有了相似度矩阵
S
S
S之后,可以将其转换为拉普拉斯矩阵
L
L
L,然后应用谱聚类算法对数据点进行聚类
。拉普拉斯矩阵
L
L
L定义为:
L = D − S L = D - S L=D−S
其中
D
D
D是一个对角矩阵
,其中
D
i
i
=
∑
j
S
i
j
D_{ii} = \sum_j S_{ij}
Dii=∑jSij,称为度矩阵。
谱聚类的步骤包括:
- 计算拉普拉斯矩阵
L
L
L的
特征向量。
- 选择前
k
k
k个特征向量,其中
k
k
k是
预期的聚类数量。
- 对这些特征向量进行
归一化
,形成一个新的矩阵 Y Y Y。 - 将
Y
Y
Y的每一行视为一个新数据点,然后应用
k
k
k-means算法对这些新数据点进行
聚类。
目标公式与解释
LLMC的核心目标公式涉及LLE的权重计算
和相似度矩阵
的构建:
min w i ∑ x j ∈ N k ( x i ) ∥ x i − ∑ x j ∈ N k ( x i ) w i j x j ∥ 2 s.t. ∑ x j ∈ N k ( x i ) w i j = 1 \min_{w_i} \sum_{x_j \in N_k(x_i)} \left\| x_i - \sum_{x_j \in N_k(x_i)} w_{ij} x_j \right\|^2 \quad \text{s.t.} \quad \sum_{x_j \in N_k(x_i)} w_{ij} = 1 wiminxj∈Nk(xi)∑ xi−xj∈Nk(xi)∑wijxj 2s.t.xj∈Nk(xi)∑wij=1
-
∑
x
j
∈
N
k
(
x
i
)
∥
x
i
−
∑
x
j
∈
N
k
(
x
i
)
w
i
j
x
j
∥
2
\sum_{x_j \in N_k(x_i)} \left\| x_i - \sum_{x_j \in N_k(x_i)} w_{ij} x_j \right\|^2
∑xj∈Nk(xi)
xi−∑xj∈Nk(xi)wijxj
2:这个表达式衡量了点
x
i
x_i
xi和它通过其
k
k
k个
最近邻点的加权和之间的差异
,目标是最小化这种差异,以找到能够最好地表示 x i x_i xi的权重 w i w_i wi。 -
∑
x
j
∈
N
k
(
x
i
)
w
i
j
=
1
\sum_{x_j \in N_k(x_i)} w_{ij} = 1
∑xj∈Nk(xi)wij=1:这是一个
约束条件
,确保权重 w i w_i wi的和为1,这在数学上防止了权重的无限放大或缩小。
结论
局部线性流形聚类(LLMC)是一种强大的聚类方法,它结合了流形学习和谱聚类技术,能够有效地处理非线性分布和高维数据集
。
通过利用局部线性嵌入(LLE)来估计数据点的局部几何特性,LLMC能够捕捉数据点在低维流形上的分布,然后通过谱聚类算法将数据点聚类到不同的流形区域。
这种方法在图像分析、生物信息学、语音识别和信号处理等领域有着广泛的应用潜力。