ParChain: A Framework for Parallel Hierarchical Agglomerative Clustering using Nearest-Neighbor Chai

ParChain: A Framework for Parallel Hierarchical Agglomerative Clustering using Nearest-Neighbor Chain

本文研究了层次聚类问题,其目标是生成一个树状图来表示数据集中不同规模的聚类。我们提出了设计并行层次凝聚聚类(HAC)算法的ParChain框架,并利用该框架获得了针对完全链接、平均链接和Ward’s链接准则的新型并行算法。与以往大多数并行HAC算法需要二次元内存相比,我们的新算法只需要线性内存,并且可扩展到大型数据集。ParChain基于我们对最近邻链算法的并行化,允许在每一轮中合并多个集群。我们介绍了两个对效率至关重要的关键优化:一个是范围查询优化,它在寻找集群的最近邻居时减少了所需的距离计算数量;另一个是缓存优化,它存储了以前计算的距离的子集,这些距离很可能被重用。

实验表明,使用48核双向超线程的高度优化实现比最先进的并行HAC算法取得了5.8 ~ 110.1倍的加速比,并取得了13.75 ~ 54.23倍的自相对加速比。与最先进的算法相比,所提算法所需空间减少了237.3倍。我们的算法能够扩展到数千万个点的数据集,这是现有算法无法处理的。

一研究问题

1. 不幸的是,精确的HAC算法通常需要n的二次方时间的工作,因为必须计算所有点对之间的距离。

2. 它们大多需要维护一个距离矩阵,这需要二次内存,使得它们无法扩展到大型数据集。

二研究内容

在本文中,我们在经典的最近邻链算法的基础上,提出了用于设计并行精确HAC算法的ParChain框架。

三方法介绍

1. 最近邻链(neares

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值