密度聚类又称为“基于密度的聚类”,此类算法假设聚类结构能通过样本分布的紧密程度来确定,通常情形下,密度聚类算法从样本密度的角度来考察样本之间的连续性,并基于可连接样本不断扩展聚类簇已获得最终的聚类结果。
DBSCAN算法是一个著名的密度聚类算法,它基于一组“邻域”参数来刻画样本分布的紧密程度,给定数据集D={x1,x2,..xm},定义下面几个概念
ε-邻域:对xj?D,ε-邻域包含样本集D中与xj的距离不大于ε的样本,(欧式距离)
核心对象:若xj的ε-邻域至少包含MinPts个样本,即邻域样本数》=MinPts ,则xj是一个核心对象。
密度直达;若xj位于xi的ε-邻域中,且xi是核心对象,则称xj由xi密度直达。
算法描述:+例子: