聚类二之密度聚类

最新推荐文章于 2024-07-19 16:20:14 发布

zhao_crystal

最新推荐文章于 2024-07-19 16:20:14 发布

阅读量2.1k

点赞数

分类专栏：算法/ML 文章标签：机器学习算法概率论

本文链接：https://blog.csdn.net/zhao_crystal/article/details/120834286

版权

算法/ML 专栏收录该内容

57 篇文章 3 订阅

订阅专栏

3.2 DensityPeak 与决策图Decision Graph

3.3 边界和噪声的重认识

3.4 不同数据下密度最大值聚类的效果

4. Affinity Propagation

4.1 Affinity Propagation 算法原理

4.2 Affinity Propagation 算法调参

5. 参考文献

1. 密度聚类算法概述

密度聚类方法的指导思想：只要样本点的密度大于某阈值，则将该样本添加到最近的簇中。

优点：

(1) 能克服基于距离的算法只能发现“类圆形”（凸）的聚类的缺点，可发现任意形状的聚类。

比如：GMM——K-Means只能得到类圆形区域

(2) 对噪声数据不敏感

(3) 对数据的分布没有要求。（K-Means要求数据服从混合高斯分布）

缺点：

(1) 计算密度单元的计算复杂度大，需要建立空间索引来降低计算量。

密度聚类算法：

DBSCAN

密度最大值算法

2. DBSCAN 算法

DBSCAN(Density based spatial clustering of applications with noise ), 将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在有“噪声”的数据中发现任意形状的聚类。

2.1 DBSCAN 若干概念

对象的-邻域：给定对象在半径内的区域。

核心对象：对于给定的数目m，如果一个对象的-邻域至少包含m个对象，则称该对象为核心对象。

直接密度可达：给定一个对象集合D，如果p是在q的-邻域内，而q是一个核心对象，我们说对象p从对象q出发是直接密度可达的。同时定义，没有任何点是由非核心点直接可达的。

eg：如下图所示：= 1cm，m=5，q是一个核心对象，从对象q出发到对象p是直接密度可达的。

密度可达：如果存在一个对象链p1, p2, p3,……pn（pi∈ D，1≤i≤n）, p1=q(核心对象), pn =p，pi+1是从pi关于E和m直接密度可达的（pi，1≤i≤n-1，为核心对象），则对象p是从对象q关于和m密度可达的。

密度相连：如果对象集合D中存在一个对象o，使得对象p和q是从o关于E和m密度可达的，那么对象p和q是关于和m密度相连的。

定义了密度相连之后，每个聚类都符合两个性质：

（1）一个聚类里的两个点都是互相连接的。

（2）如果一个点p是由一个在聚类里的点q可达的，那么p也在q所属的聚类里。

簇：一个基于密度的簇是最大的密度相连对象的集合。

噪声：不包含在任何簇中的对象称为噪声。

2.2 DBSCAN算法的流程

（1）如果一个点p的E-邻域包含多于m个对象，则创建一个p作为核心对象的新簇；

（2）寻找并合并核心对象直接密度可达的对象；（用到并查集，不关心路径，只关心两个点是否连接）

（3）没有新点可以更新簇时，算法结束；

DBSCAN 需要两个参数：ε (eps) 和形成高密度区域所需要的最少点数 (minPts)

伪代码：

DBSCAN(D, eps, MinPts) {
   C = 0
   for each point P in dataset D {
      if P is visited
         continue next point
      mark P as visited
      NeighborPts = regionQuery(P, eps)
      if sizeof(NeighborPts) < MinPts
         mark P as NOISE
      else {
         C = next cluster
         expandCluster(P, NeighborPts, C, eps, MinPts)
      }
   }
}

expandCluster(P, NeighborPts, C, eps, MinPts) {
   add P to cluster C
   for each point P' in NeighborPts { 
      if P' is not visited {
         mark P' as visited
         NeighborPts' = regionQuery(P', eps)
         if sizeof(NeighborPts') >= MinPts
            NeighborPts = NeighborPts joined with NeighborPts'
      }
      if P' is not yet member of any cluster
         add P' to cluster C
   }
}

regionQuery(P, eps)
   return all points within P's eps-neighborhood (including P)

由上述算法可知：