DBSCAN聚类算法
1、算法原理
DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一个有代表性的基于密度的空间聚类算法。它将类定义为密度相连的点的最大集合,通过在样本空间中不断寻找最大集合从而完成聚类。该算法在带噪声的样本空间中发现任意形状的聚类并排除噪声。
2、DBSCAN算法涉及的基本定义:
ϵ \epsilon ϵ邻域:对于 p i p_i pi ∈ \in ∈D,其 ϵ \epsilon ϵ邻域包含对象集合D中与 p i p_i pi的距离不大于 ϵ \epsilon ϵ的子对象集,即 N ϵ N_ϵ Nϵ( p i p_i pi)={ x j x_j xj ∈ \in ∈D|distance( x i x_i xi, x j x_j xj) ≤ \leq ≤ ϵ \epsilon ϵ},这个子对象集的个数记为 | N ϵ N_ϵ Nϵ( p i p_i pi)|
核心点(Core point):如果给定对象的 ϵ \epsilon ϵ邻域内的样本点数大于设定的MinPts,则称该对象为核心点(核心对象)。
边界点(Border point):若样本 p i p_i pi的邻域内包含的样本数目小于MinPts,但是它在其它核心点的邻域内,则称样本点 p i p_i pi为边界点。
噪声点(Noise point):既不是核心点也不是噪声点的点
直接密度可达:给定对象集合D,如果对象p在对象q的