Dynamic Density Based Clustering
动态聚类——如何在数据更新的同时有效地维护数据簇——是一个困难的话题。对于基于密度的聚类尤其如此,对象是基于邻近性聚集的,在这种情况下,确定一个对象的簇可能需要大量其他对象的检查。考虑到这种聚类方法在许多需要数据更新的应用程序中广泛使用,这种现象是不幸的。
基于此,研究了DBSCAN的算法原理,提出了一种成功的基于密度的动态聚类算法,以及ρ-近似DBSCAN算法,以降低前者在静态数据上的计算难度。令人惊讶的是,我们证明了ρ-approximate版本在数据集完全动态时,即允许插入和删除时,具有同样的困难。只要应用微小的进一步放松,这个问题就会消失,但仍然保证了相同的质量——称为ρ-近似DBSCAN的“三明治保证”。所提出算法保证了近乎恒定的更新处理,比现有方法的性能高出两个数量级以上。