机器学习实战——密度聚类算法
1 密度聚类
密度聚类假设聚类结构能够通过样本分布的密集程度确定,通常情形下,密度聚类算法从样本密度的角度来考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇以获得最终的聚类结果。
DBSCAN 是一种很典型的密度聚类算法,给定领域参数的半径为 e ,最小样本点为 MinPts 。该算法中几个较重要的概念如下:
- e 邻域:给定对象半径为 e 内的区域称为该对象的 e 邻域;
- 核心对象:如果给定对象 e 邻域内的样本点数大于等于 MinPts,则称该对象为核心对象;
- 边界对象:在半径 e 内点的数量小于 MinPts,但是落在核心点的邻域内。
- 噪声对象:既不是核心对象也不是边界对象的样本。
- 直接密度可达:对于样本集合 D,如果样本点 q 在点 p 的 e 邻域内,并且 p 为核心对象,那么对象 q 从对象 p 直接密度可达。
- 密度可达:对于样本集合 D,给定一串样本点 p 1 , p 2 … . p n , p = p 1 , q = p n p_1,p_2….p_n,p= p_1,q= p_n p1,p2….pn,p=p1,q=