DenForest: Enabling Fast Deletion in Incremental Density-Based Clustering over Sliding Windows(2022)

基于密度的聚类被用于各种应用,如热点检测或分割。为了实时地服务于这些应用程序,需要通过只捕获最近的数据来增量地更新集群。以往基于增量密度的聚类算法常常以图的形式表示聚类,性能下降严重。这是因为当移除一个点时,需要花费大量的图遍历来检查集群是否仍然连接。为了解决删除速度慢的问题,本文提出了一种新的基于增量密度的聚类算法DenForest。通过将集群维护为一组生成树而不是一个图,DenForest可以有效和准确地确定一个集群是否要在对数时间内从窗口中删除一个点。经过广泛的评估,证明DenForest显著优于最先进的基于密度的聚类算法,并实现了与DBSCAN的聚类质量相当的聚类质量。

背景:1. 基于密度的聚类是计算密集型的,对时变或流数据执行这些分析任务涉及到实时聚类的重大挑战

2.以前基于增量密度的算法通常在物理上或逻辑上将集群管理为一个图。当从集群中移除一个点时,它的性能会严重下降。

方案:作为一种基于增量密度的聚类算法,DenForest是基于一种新颖的思想,它允许我们将集群管理为一组数据点的生成树,而不是一个图。一般来说,判断移除一个点是否会分裂树要比判断移除一个点是否会分裂图简单得多。然而,一个生成树被分割并不总是意味着底层图也被分割。因此,我们设计了一种新的数据结构,称为DenTree,它可以准确地判断底层图是否被分割。图的DenTrees可以自己决定移除一个点是否会分裂图(例如,簇)。通过将集群管理为DenTrees, DenForest解决了删除缓慢的问题,并实现了快速的基于密度的增量集群

DENFOREST

一种新的基于增量密度的聚类算法DenForest来处理删除速度慢的问题。

 

 对于当前窗口中的数据点,DenForest通过检测怀旧核心的连接组件产生基于密度的簇。怀旧核与DBSCAN定义的核相似,都是在致密区发现的点。但怀旧的核心与DBSCAN的核心的不同之处在于,它们过期成为非核心点。每个基于密度的怀旧核心集群都可以管理为一个名为DenTree的树结构,这可以显著加快删除过程(章节3.4和定理1)。当窗口滑动时,DenForest通过插入和删除点单独(章节4.1和4.2)或批量(章节4.3)更新集群。我们假设在同一步长的数据点被一起处理,而在不同步长的数据点被严格按照时间戳的顺序处理。图3展示了DenForest的整个集群过程。

DenTree

一个DenTree由一个定义在DenGraph下面的最大生成树(MST)和与其相关的边界点组成

 

 

 

 OPERATIONS OF DENFOREST

1)Insertion

 delete

..................................

EVALUATION

 

 

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值