ParChain: A Framework for Parallel Hierarchical Agglomerative Clustering using Nearest-Neighbor Chain
本文研究了层次聚类问题,其目标是生成一个树状图来表示数据集中不同规模的聚类。我们提出了设计并行层次凝聚聚类(HAC)算法的ParChain框架,并利用该框架获得了针对完全链接、平均链接和Ward’s链接准则的新型并行算法。与以往大多数并行HAC算法需要二次元内存相比,我们的新算法只需要线性内存,并且可扩展到大型数据集。ParChain基于我们对最近邻链算法的并行化,允许在每一轮中合并多个集群。我们介绍了两个对效率至关重要的关键优化:一个是范围查询优化,它在寻找集群的最近邻居时减少了所需的距离计算数量;另一个是缓存优化,它存储了以前计算的距离的子集,这些距离很可能被重用。
实验表明,使用48核双向超线程的高度优化实现比最先进的并行HAC算法取得了5.8 ~ 110.1倍的加速比,并取得了13.75 ~ 54.23倍的自相对加速比。与最先进的算法相比,所提算法所需空间减少了237.3倍。我们的算法能够扩展到数千万个点的数据集,这是现有算法无法处理的。
一研究问题
1. 不幸的是,精确的HAC算法通常需要n的二次方时间的工作,因为必须计算所有点对之间的距离。
2. 它们大多需要维护一个距离矩阵,这需要二次内存,使得它们无法扩展到大型数据集。
二研究内容
在本文中,我们在经典的最近邻链算法的基础上,提出了用于设计并行精确HAC算法的ParChain框架。
三方法介绍
1. 最近邻链(neares