原文:《基于层次与密度的任意形状聚类算法》作者:徐合利 牛丽君
-
一种快速定位密度峰值的聚类算法 CFSFDP
该算法认为密度峰值点是一些被低密度点包围且到其他高密度点的距离较大的点。 -
密度峰值点的改进
CFSFDP 算法认为密度峰值点应该满足以下2 个条件: ( 1) 点的局部密度 ρ 较大; ( 2) 到其他高密度点的距离 δ 也较大。将那些局部密度较小但是到其他高密度点距离较远的点作为孤立点处理,但是这种方法并不适用于密度分布不均匀的数据集,容易将低密度区域中的密度峰值点当作孤立点,使低密度区域中的数据点得不到有效聚类。为此,密度峰值点只需要满足第( 2) 个条件,即到其他高密度点的距离 δ 较大,因为只有那些密度是局部或全局最大的点才会有远大于正常相邻点的间距,所以到其他高密度点的距离 δ 较大的点一定包含密度峰值点,这样选出来的密度峰值点才能够代表密度差异较大的数据集中不同密度大小的聚类。对于这些点中可能存在孤立点的情况,将在下文中进行孤立点处理。