局部线性流形聚类（Locally Linear Manifold Clustering, LLMC）

不易撞的网名

于 2024-07-19 16:06:04 发布

阅读量1k

点赞数 8

分类专栏：机器学习文章标签：聚类机器学习支持向量机

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_50569789/article/details/140529046

版权

机器学习专栏收录该内容

225 篇文章 4 订阅

订阅专栏

局部线性流形聚类（Locally Linear Manifold Clustering, LLMC）

引言

局部线性流形聚类（LLMC）是一种用于高维数据聚类的先进方法，它基于流形学习理论，旨在发现隐藏在高维数据背后的低维流形结构。

LLMC通过局部线性嵌入（LLE）来估计数据点的局部几何特性，然后利用这些信息构建一个`相似度矩阵``，最后应用谱聚类算法对数据点进行聚类。

这种方法特别适合于处理非线性分布的数据集，其中数据点分布在复杂的流形上。

局部线性嵌入（LLE）

LLE是一种非线性降维技术，它试图保持数据点在局部邻域内的相对位置不变。

对于数据集中的每个点 $x_i$ ，LLE找到一组权重 $w_i$ ，使得 $x_i$ 可以被其 $k$ 个最近邻点的加权和近似表示。权重 $w_i$ 通过解决以下优化问题来确定：

$\min_{w_i} \sum_{x_j \in N_k(x_i)} \left\| x_i - \sum_{x_j \in N_k(x_i)} w_{ij} x_j \right\|^2$

其中：

$N_k(x_i)$ 是点 $x_i$ 的 $k$ 个最近邻点集合。
$w_{ij}$ 是点 $x_i$ 表示为点 $x_j$ 的权重。
$\left\| \cdot \right\|$ 表示欧几里得范数。

为了确保权重 $w_i$ 的唯一性，加入一个约束条件：

$\sum_{x_j \in N_k(x_i)} w_{ij} = 1$

构建相似度矩阵

一旦为每个数据点 $x_i$ 计算了权重 $w_i$ ，就可以构建一个相似度矩阵 $S$ ，其中 $S_{ij}$ 反映了点 $x_i$ 和点 $x_j$ 之间的相似度。相似度可以通过权重 $w_{ij}$ 来定义，例如：

$S_{ij} = \begin{cases} w_{ij} & \text{if } j \in N_k(i) \\ w_{ji} & \text{if } i \in N_k(j) \\ 0 & \text{otherwise} \end{cases}$

谱聚类

有了相似度矩阵 $S$ 之后，可以将其转换为拉普拉斯矩阵 $L$ ，然后应用谱聚类算法对数据点进行聚类。拉普拉斯矩阵 $L$ 定义为：

$L = D - S$

其中 $D$ 是一个对角矩阵，其中 $D_{ii} = \sum_j S_{ij}$ ，称为度矩阵。

谱聚类的步骤包括：

计算拉普拉斯矩阵 $L$ 的特征向量。
选择前 $k$ 个特征向量，其中 $k$ 是预期的聚类数量。
对这些特征向量进行归一化，形成一个新的矩阵 $Y$ 。
将 $Y$ 的每一行视为一个新数据点，然后应用 $k$ -means算法对这些新数据点进行聚类。

目标公式与解释

LLMC的核心目标公式涉及LLE的权重计算和相似度矩阵的构建：

$\min_{w_i} \sum_{x_j \in N_k(x_i)} \left\| x_i - \sum_{x_j \in N_k(x_i)} w_{ij} x_j \right\|^2 \quad \text{s.t.} \quad \sum_{x_j \in N_k(x_i)} w_{ij} = 1$

$\sum_{x_j \in N_k(x_i)} \left\| x_i - \sum_{x_j \in N_k(x_i)} w_{ij} x_j \right\|^2$ ：这个表达式衡量了点 $x_i$ 和它通过其 $k$ 个最近邻点的加权和之间的差异，目标是最小化这种差异，以找到能够最好地表示 $x_i$ 的权重 $w_i$ 。
$\sum_{x_j \in N_k(x_i)} w_{ij} = 1$ ：这是一个约束条件，确保权重 $w_i$ 的和为1，这在数学上防止了权重的无限放大或缩小。

结论

局部线性流形聚类（LLMC）是一种强大的聚类方法，它结合了流形学习和谱聚类技术，能够有效地处理非线性分布和高维数据集。

通过利用局部线性嵌入（LLE）来估计数据点的局部几何特性，LLMC能够捕捉数据点在低维流形上的分布，然后通过谱聚类算法将数据点聚类到不同的流形区域。

这种方法在图像分析、生物信息学、语音识别和信号处理等领域有着广泛的应用潜力。

不易撞的网名

关注

8
点赞
踩
12

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

不易撞的网名 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。