密度峰值聚类算法（Clustering by Fast Search and Find of Density Peaks, CFSDP）

不易撞的网名

已于 2024-07-15 16:56:31 修改

阅读量611

点赞数 5

分类专栏：机器学习文章标签：算法聚类机器学习

于 2024-07-15 16:53:47 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_50569789/article/details/140443320

版权

机器学习专栏收录该内容

227 篇文章 5 订阅

订阅专栏

密度峰值聚类算法（Clustering by Fast Search and Find of Density Peaks, CFSDP）是一种基于密度的聚类方法，它识别数据点作为潜在的聚类中心，这些点具有高局部密度并且与更高密度点的距离较大。

这种方法适用于处理具有复杂形状的聚类和存在噪声的数据集。下面是对CFSDP算法的详细介绍，包括关键步骤、涉及的公式及其作用：

密度峰值聚类算法的步骤

1. 计算局部密度（p）

局部密度反映了某个点周围数据点的密集程度。可以通过以下两种方式计算：

截断核函数:
- 如果点 $i$ 与点 $j$ 之间的距离 $d_{ij}$ 小于截断距离 $δ$ , 则贡献值为1；否则为0。
  $p_i = \sum_{j=1}^{N} \mathcal{H}(δ-d_{ij})$
  其中， $\mathcal{H}$ 是一个Heaviside阶跃函数， $N$ 是数据点总数， $δ$ 是预先设定的截断距离。
高斯核函数:
$p_i = \sum_{j=1}^{N} \exp\left(-\frac{(d_{ij})^2}{2σ^2}\right)$
$σ$ 是标准差，决定了密度函数的宽度。

2. 计算最小距离（δ）

最小距离 $δ_i$ 是指从点 $i$ 到任何具有更高密度点 $j$ 的最短距离，如果不存在这样的点，则 $δ_i$ 设置为数据集中所有点之间的最大距离。

$δ_i = \begin{cases} \min_{j:p_j > p_i} d_{ij}, \text{if } ∃ j: p_j > p_i \\ \max_{i,j} d_{ij}, \text{otherwise} \end{cases}$

3. 确定聚类中心

通过绘制决策图，即局部密度 $p$ 与最小距离 $δ$ 的关系图，识别出具有高 $p$ 和 $δ$ 值的点作为聚类中心。

4. 聚类分配

分配剩余点：每个非聚类中心的点被分配给距离最近且密度更高的点所在的聚类。
确定边界区域和阈值：对于每个聚类，定义一个边界区域，其中包含距离其他聚类点小于截断距离 $δ$ 的数据点。然后，计算边界区域中密度的最大值作为阈值。
核心点与噪声点：密度大于阈值的点被视为核心点，其余点被视为噪声点。

谱密度表示

为了将密度峰值聚类算法推广到多源数据，论文引入了谱密度表示（Spectral Density Representation, SDR）。

SDR将连续的密度值表示为一系列离散值的组合，以便在多源数据中获得一致的密度表示。

SDR的计算涉及到将数据点的局部密度通过谱方法转化为离散表示，这允许对不同来源的数据进行融合和比较。

总结

密度峰值聚类算法通过计算局部密度和最小距离来识别聚类中心，这种方法能够有效地处理非球形和噪声数据。

通过引入谱密度表示，算法能够更好地应用于多源数据的聚类问题，确保了算法的适用性和鲁棒性。

上述公式和步骤为理解密度峰值聚类算法及其在多源数据应用中的拓展提供了基础。

不易撞的网名

关注

5
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

不易撞的网名 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。