密度聚类算法(三)

OPTICS算法

    尽管DBSCAN算法能够给定的输入参数r(邻域的最大半径)和MinPts(核心对象的最小数量)聚类对象,但是参数任务留给了用户。参数的设置通常依靠经验,难以确定。大多数算法对参数的设置都比较敏感,设置的不同可能导致很大差别的聚类效果。

   基于密度的簇关于邻域阈值是单调的。即在DBSCAN中,对于固定的MinPts值和两个邻域r1<r2,关于r1的簇C一定是关于r2的簇C’的子集。意味着,如果两个对象在同一个基于密度的簇中,则他们一定也在同一个具有较低密度的簇中。

   上面这一段话可能觉得不好理解,其实意思就是说DBSCAN算法使用的参数都是全局参数,即r(邻域半径)和MinPts(最少数量)设定了之后,全局都是基于同一个密度在进行聚类。直接上图,看了图就明白DBSCAN的缺陷了。

        

  (1)不同的密度。在上图中,如果按照不同的密度,而不是在同一个基于密度的簇中,那么A,B,C三个簇都可以识别出来。

  (2)最大的密度。如果按照相同的密度,如果按照最大的密度,即簇C的密度,那么只能识别出簇C,A,B可能作为噪声点而被处理了。

  (3)最小的密度。如果按照最小的密度,即A,B的密度,那么所有A,B,C所有的点都在同一个簇中,聚类效果很差。

    从上可以发现,DBSCAN使用全局参数聚类效果不是很好,尤其是高维数据集,数据倾斜可能比较严重。为了克服全局参数这一缺点,引入了OPTICS聚类算法。OPTICS并不显式地产生聚类簇,而是输出点排序。这个排序是所有分析对象的线性表(按照距离的远近),并且代表了数据的基于密度的聚类结构。OPTICS聚类算法不需要用户提供特定的密度阈值。簇排序可以用来提取基本的聚类信息,导出内在的聚类结构。

基本概念:

  (1)核心距离:对象P的核心距离是最小的ξ’值,即使得对象P的ξ’-邻域内至少有MinPts个对象,即ξ’是使得P成为核心对象的最小半径阈值。如果P不是关于关于ξ和MinPts的核心对象,那么P的核心距离没有定义。(注意此处ξ’和ξ的联系)如下图所示我们设置的MinPts=5,那么在ξ’=4的时候就满足了,那么核心距离就是4,感觉我们全局设置的参数ξ=8没有意义?其实ξ只是起一个约束作用。

  (2)可达距离:从对象q到对象p的可达距离是使p从q密度可达的最小半径值。q必须是核心对象,并且p必须在q的邻域内。从q到p的可达距离max{core_distance(q),dist(p,q)}。如果q不是核心对象,那么可达距离没有意义。

 

看了这两个概念,可能会觉得有点晕,其实很简单。

核心距离是某个对象满足在<=ξ的某个范围内,有MinPts个邻域点。

可达距离是核心对象(必须要有核心对象)与其邻域点的距离(邻域为ξ范围,不是ξ’范围)。


OPTICS算法思想如下所示:

  • 输入:数据样本D,初始化所有点的可达距离和核心距离为MAX,半径 ε ,和最少点数 MinPts

  • 1、建立两个队列,有序队列(核心点及该核心点的直接密度可达点),结果队列(存储样本输出及处理次序)

  • 2、如果D中数据全部处理完,则算法结束,否则从D中选择一个未处理且未核心对象的点,将该核心点放入结果队列,该核心点的直接密度可达点放入有序队列,直接密度可达点并按可达距离升序排列;
  • 3、如果有序序列为空,则回到步骤2,否则从有序队列中取出第一个点;
  • 3.1 判断该点是否为核心点,不是则回到步骤3,是的话则将该点存入结果队列,如果该点不在结果队列;
  • 3.2 该点是核心点的话,找到其所有直接密度可达点,并将这些点放入有序队列,且将有序队列中的点按照可达距离重新排序,如果该点已经在有序队列中且新的可达距离较小,则更新该点的可达距离。
  • 3.3 重复步骤3,直至有序队列为空。
  • 4、算法结束。
 最后排序结果的输出:
  • 1、从结果队列中按顺序取出点,如果该点的可达距离不大于给定半径 ε ,则该点属于当前类别,否则至步骤2
  • 2、如果该点的核心距离大于给定半径 ε ,则该点为噪声,可以忽略,否则该点属于新的聚类,跳至步骤1;
  • 3、结果队列遍历结束,则算法结束

  如果对这个算法之前一点了解都没有,可以仔细的看看上面的算法伪代码。其实总结一下很简单,跟DBSCAN一样也可以分为三个步骤。

   (1) 对总数据D中的核心对象进行遍历

   (2) 取出核心对象之后,建立两个队列,有序队列存放核心对以及核心对象的密度可达点,并且按照可达距离进行升序排序。

   (3) 对有序队列进行遍历,判断每一个点是否是核心对象,如果是的话,将其密度可达点(不在结果队列中的)加入到有序队列中。将有序队列迭代输出的结果放入到结果队列中吗,同时在数据D汇总将其删掉。有序队列为空了,开始下一个核心对象的迭代,开始(1)。

 

  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值