DISC: Density-Based Incremental Clustering by Striding over Streaming Data

DISC: Density-Based Incremental Clustering by Striding over Streaming Data

随着移动设备和物联网设备的普及,对流数据进行连续聚类已经成为数据分析的重要工具。在众多聚类算法中,基于密度的聚类算法因其独特的优点而受到广泛关注。然而,它的主要缺点是由于相对较高的计算成本而限制了可扩展性,当它必须随着数据的变化不断更新集群时,这一问题进一步恶化。提出了一种新的基于密度的增量聚类算法DISC optimized for sliding window model。DISC能够以更快、更高效的速度产生与现有方法(如针对流数据的增量DBSCAN)完全相同的聚类结果。 

主要目标:

针对基于密度的流数据聚类存在的局限性,在不影响聚类结果质量或消耗过多计算资源的前提下,使得流数据的聚类任务能够及时完成。本文提出的基于密度的聚类算法称为基于密度的增量跨步聚类(density-based Incremental Striding Cluster,简称DISC)。它能够以更快、更有效的方式产生与现有方法(如增量DBSCAN)完全相同的聚类结果。

A. Density-Based Clustering 

 

 B. Sliding Windows

THE DISC ALGORITHM

介绍了一种新的增量式聚类算法DISC,它是针对大规模流数据在滑动窗口模型下的聚类问题而提出的。首先对算法进行了概述,然后描述了算法的两个主要步骤:收集和聚类。

 这将在两个单独的步骤中进行,称为COLLECT和CLUSTER

聚类步骤寻找每个前核和新核的最小连接核,通过检查可达性来确定簇演化的类型,最后重新计算当前窗口中每个点的簇标签。 

B. COLLECT 

 

 CLUSTER

本节介绍的聚类步骤提供了一个复杂但高效的过程,以加快聚类演化的处理。算法2给出了该过程的高层描述。从伪代码中可以看出,前核用于处理簇分裂,而新核用于处理簇合并。在这两种主要操作之间,划分cluster的计算量要比增量更新集群大得多。本节将详细描述算法的每个子过程 

1)Splitting a Cluster

簇分裂涉及核心点之间密度可达性的分裂。当核心点失去成为前核的状态时,它可能会在同一簇中的核之间切割一条密度可达路径,这反过来可能会导致簇分裂事件。本质上,只有当前核破坏了同一簇中的两个核心点之间的密度可达路径,并且它们之间不再有路径时,簇才能被拆分。 

 2)Merging Clusters

当不同簇的核心变得密度可达时,簇被合并。因为只有新核心才能有助于创建新的密度可达路径,所以只有当现有点获得核心状态或新核心进入当前窗口时,现有集群才能合并

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值