局部线性流形聚类(Locally Linear Manifold Clustering, LLMC)

局部线性流形聚类(Locally Linear Manifold Clustering, LLMC)

引言

局部线性流形聚类(LLMC)是一种用于高维数据聚类的先进方法,它基于流形学习理论,旨在发现隐藏在高维数据背后的低维流形结构。

LLMC通过局部线性嵌入(LLE)来估计数据点的局部几何特性,然后利用这些信息构建一个`相似度矩阵``,最后应用谱聚类算法对数据点进行聚类。

这种方法特别适合于处理非线性分布的数据集,其中数据点分布在复杂的流形上。

局部线性嵌入(LLE)

LLE是一种非线性降维技术,它试图保持数据点在局部邻域内的相对位置不变。

对于数据集中的每个点 x i x_i xi,LLE找到一组权重 w i w_i wi,使得 x i x_i xi可以被其 k k k最近邻点的加权和近似表示。权重 w i w_i wi通过解决以下优化问题来确定:

min ⁡ w i ∑ x j ∈ N k ( x i ) ∥ x i − ∑ x j ∈ N k ( x i ) w i j x j ∥ 2 \min_{w_i} \sum_{x_j \in N_k(x_i)} \left\| x_i - \sum_{x_j \in N_k(x_i)} w_{ij} x_j \right\|^2 wiminxjNk(xi) xixjNk(xi)wijxj 2

其中:

  • N k ( x i ) N_k(x_i) Nk(xi)是点 x i x_i xi k k k最近邻点集合。
  • w i j w_{ij} wij是点 x i x_i xi表示为点 x j x_j xj权重。
  • ∥ ⋅ ∥ \left\| \cdot \right\| 表示欧几里得范数。

为了确保权重 w i w_i wi唯一性,加入一个约束条件:

∑ x j ∈ N k ( x i ) w i j = 1 \sum_{x_j \in N_k(x_i)} w_{ij} = 1 xjNk(xi)wij=1

构建相似度矩阵

一旦为每个数据点 x i x_i xi计算了权重 w i w_i wi,就可以构建一个相似度矩阵 S S S,其中 S i j S_{ij} Sij反映了点 x i x_i xi和点 x j x_j xj之间的相似度。相似度可以通过权重 w i j w_{ij} wij来定义,例如:

S i j = { w i j if  j ∈ N k ( i ) w j i if  i ∈ N k ( j ) 0 otherwise S_{ij} = \begin{cases} w_{ij} & \text{if } j \in N_k(i) \\ w_{ji} & \text{if } i \in N_k(j) \\ 0 & \text{otherwise} \end{cases} Sij= wijwji0if jNk(i)if iNk(j)otherwise

谱聚类

有了相似度矩阵 S S S之后,可以将其转换为拉普拉斯矩阵 L L L,然后应用谱聚类算法对数据点进行聚类。拉普拉斯矩阵 L L L定义为:

L = D − S L = D - S L=DS

其中 D D D是一个对角矩阵,其中 D i i = ∑ j S i j D_{ii} = \sum_j S_{ij} Dii=jSij,称为度矩阵。

谱聚类的步骤包括:

  1. 计算拉普拉斯矩阵 L L L特征向量。
  2. 选择前 k k k个特征向量,其中 k k k预期的聚类数量。
  3. 对这些特征向量进行归一化,形成一个新的矩阵 Y Y Y
  4. Y Y Y的每一行视为一个新数据点,然后应用 k k k-means算法对这些新数据点进行聚类。
目标公式与解释

LLMC的核心目标公式涉及LLE的权重计算相似度矩阵的构建:

min ⁡ w i ∑ x j ∈ N k ( x i ) ∥ x i − ∑ x j ∈ N k ( x i ) w i j x j ∥ 2 s.t. ∑ x j ∈ N k ( x i ) w i j = 1 \min_{w_i} \sum_{x_j \in N_k(x_i)} \left\| x_i - \sum_{x_j \in N_k(x_i)} w_{ij} x_j \right\|^2 \quad \text{s.t.} \quad \sum_{x_j \in N_k(x_i)} w_{ij} = 1 wiminxjNk(xi) xixjNk(xi)wijxj 2s.t.xjNk(xi)wij=1

  • ∑ x j ∈ N k ( x i ) ∥ x i − ∑ x j ∈ N k ( x i ) w i j x j ∥ 2 \sum_{x_j \in N_k(x_i)} \left\| x_i - \sum_{x_j \in N_k(x_i)} w_{ij} x_j \right\|^2 xjNk(xi) xixjNk(xi)wijxj 2:这个表达式衡量了点 x i x_i xi和它通过其 k k k最近邻点的加权和之间的差异,目标是最小化这种差异,以找到能够最好地表示 x i x_i xi的权重 w i w_i wi
  • ∑ x j ∈ N k ( x i ) w i j = 1 \sum_{x_j \in N_k(x_i)} w_{ij} = 1 xjNk(xi)wij=1:这是一个约束条件,确保权重 w i w_i wi的和为1,这在数学上防止了权重的无限放大或缩小。
结论

局部线性流形聚类(LLMC)是一种强大的聚类方法,它结合了流形学习和谱聚类技术,能够有效地处理非线性分布和高维数据集

通过利用局部线性嵌入(LLE)来估计数据点的局部几何特性,LLMC能够捕捉数据点在低维流形上的分布,然后通过谱聚类算法将数据点聚类到不同的流形区域。

这种方法在图像分析、生物信息学、语音识别和信号处理等领域有着广泛的应用潜力。

局部线性嵌入(Locally Linear Embedding,LLE)是一种非线性降维算法,用于从高维数据中提取其低维流形结构。它通过保持数据点之间的线性关系来实现降维,而不是简单地保持数据的距离关系。 LLE的基本思想是假设高维数据的低维表示可以通过将每个数据点与其邻居点进行线性组合来构建。具体来说,LLE将每个数据点表示为其邻居点的线性组合,使得该点与其邻居点之间的欧氏距离达到最小。然后,通过在低维空间中重建每个数据点的线性组合关系,LLE可以实现数据降维并保持其局部结构。 LLE算法包括以下步骤: 1. 寻找每个数据点的邻居点:根据设定的邻居数量,通过计算距离选择每个数据点的最近邻居。 2. 重建每个数据点的线性组合关系:对于每个数据点,根据其邻居点的权重,通过最小化重建误差来确定每个数据点的线性组合关系。 3. 构建低维表示:通过求解一个关于低维表示的优化问题,将高维数据映射到低维空间中。 LLE的优点是能够保持数据的局部结构,并且对噪声和非线性变换具有较好的鲁棒性。然而,LLE也存在一些缺点,如对邻居数量和权重的选择敏感,容易产生过拟合问题,并且计算复杂度较高。 总之,局部线性嵌入是一种通过保持数据点之间的线性关系来实现降维的非线性降维算法。它是一种有力的工具,可用于理解和分析高维数据集的结构。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不易撞的网名

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值