算法思想
DBSCAN是一种基于密度的聚类方法,其思想是根据样本间的紧密程度来对簇进行划分。
DBSCAN的样本点一般被分为三类:
1.核心点:
在半径Eps内含有超过MinPts数目的点
2.边界点:
在半径Eps内含有的点不超过MinPts,但是落在核心点领域内的点
3.噪声点:
既不是核心点也不是噪声点的点。
这里有两个参数需要人为指定:半径长度Eps 和 点的数据MinPts
如图所示,绿色的为核心点,蓝色的为边界点,红色的为噪声点。
关于样本点构成的一些其他概念:
1.Eps邻域
假设样本点p在数据集内,Eps领域即指的是数据集中离样本p的距离小于等于Eps的样本点的集合。
2.密度直达
假设有样本点p,q。其中p是核心点,q在p的Eps邻域内,则p,q密度直达。
3.密度可达
对于对象链:p_1,p_2……p_n,p_(i+1),是从p_i关于Eps和MinPts直接密度可达的,则对象p_n是从对