DBSCAN(基于密度)
2 个 算 法 参 数 : 邻 域 半 径 R 和 最 少 点 数 目 m i n p o i n t s 。 {\color{Red}2个算法参数:邻域半径R和最少点数目minpoints。} 2个算法参数:邻域半径R和最少点数目minpoints。
这两个算法参数实际可以刻画什么叫密集——当邻域半径R内的点的个数大于最少点数目minpoints时,就是密集。
3 种 点 的 类 别 : 核 心 点 , 边 界 点 和 噪 声 点 。 {\color{Red}3种点的类别:核心点,边界点和噪声点。} 3种点的类别:核心点,边界点和噪声点。
邻域半径R内样本点的数量大于等于minpoints的点叫做核心点。不属于核心点但在某个核心点的邻域内的点叫做边界点。既不是核心点也不是边界点的是噪声点。
4 种 点 的 关 系 : 密 度 直 达 , 密 度 可 达 , 密 度 相 连 , 非 密 度 相 连 。 {\color{Red}4种点的关系:密度直达,密度可达,密度相连,非密度相连。} 4种点的关系:密度直达,密度可达,密度相连,非密度相连。
DBSCAN算法步骤:
1:寻找核心点形成临时聚类簇。
扫描全部样本点,如果某个样本点R半径范围内点数目>=MinPoints,则将其纳入核心点列表,并将其密度直达的点形成对应的临时聚类簇。
2:合并临时聚类簇得到聚类簇。
对于每一个临时聚类簇,检查其中的点是否为核心点,如果是,将该点对应的临时聚类簇和当前临时聚类簇合并,得到新的临时聚类簇。
3:重复此操作,直到当前临时聚类簇中的每一个点要么不在核心点列表,要么其密度直达的点都已经在该临时聚类簇,该临时聚类簇升级成为聚类簇。
4:继续对剩余的临时聚类簇进行相同的合并操作,直到全部临时聚类簇被处理。
DBSCAN算法需考虑的三个问题
第 一 个 {\color{Blue}第一个} 第一个是一些异常样本点或者说少量游离于簇外的样本点,这些点不在任何一个核心对象在周围,在DBSCAN中,我们一般将这些样本点标记为噪音点。
第