一、简介
这篇文章是2014年发表在《Science》上的一篇文章。文章的思想是基于:集群中心的密度高于其周围的点,并且与密度较高的点有相对较大的距离。
二、算法的提出
作者在一开始提到了两种传统聚类,基于划分的聚类,基于密度的聚类。
基于划分的聚类以K-means和K-medoids为例,这种算法最大的缺点是不能检测到非球状的簇。基于密度的聚类以DBSCAN为例,它虽然可以计算出任意形状的簇,但是计算量很大。
基于以上两种情况,文章提出通过快速搜索和发现密度峰进行聚类。它基于一种假设:簇中心被局部密度较低的邻域包围,同时这些点距离该聚类中心的距离相比于其他聚类中心来说是最近的。
三、算法介绍
对于每一个数据i,给定两个变量:点的局部密度(local density)和该点到具有更高局部密度的点的距离,而这两个值都取决于数据点间的距离。
1、点的局部密度计算
点的局部密度定义如下:
</