Staleness-Aware Communication-Avoiding Full-Graph Decentralized Training in Large-Scale Grap

西西弗的小蚂蚁

已于 2024-04-11 12:18:43 修改

阅读量11

点赞数

分类专栏：图数据挖掘图神经网络文章标签：去中心化

于 2022-10-26 19:58:54 首次发布

本文链接：https://blog.csdn.net/zj_18706809267/article/details/127538684

版权

图数据挖掘同时被 2 个专栏收录

52 篇文章 2 订阅

订阅专栏

图神经网络

32 篇文章 1 订阅

订阅专栏

Staleness-Aware Communication-Avoiding Full-Graph Decentralized Training in Large-Scale Graph Neural Networks

图神经网络(gnn)因其在图数据建模方面的成功而出现。然而，GNNs对高效地扩展到大型图很困难。因此，分布式gnn开始发挥作用。为避免worker之间昂贵的数据移动所导致的通信，本文提出Sancus，一种过时性感知的通信，避免分散的GNN系统。通过引入一组新的有界嵌入惰性指标和自适应跳过广播，Sancus将去中心化GNN处理抽象为顺序矩阵乘法，并通过缓存使用历史嵌入。理论上，展示了具有收敛保证的嵌入和梯度的有界逼近误差。通过在大规模基准数据集上的不同系统设置，用常见的GNN模型来评估Sancus。与SOTA相比，在不损失精度的情况下，Sancus可以避免高达74%的通信，平均吞吐量至少提高1.86

一研究背景

1）为了缓解随着数据和模型大小不断增加的内存需求，分布式GNN处理是不可避免的补救措施。人们已经对基于采样的分布式GNN训练进行了一些尝试，代价是信息损失[3,16,34]、采样开销[16]和不保证收敛[5]。本文专注于全图神经网络的分布式训练。1

2）除了大量的内存占用之外，由于耦合的不规则邻域访问和迭代学习过程，分布式gnn是内存密集和计算密集的[33,36]。密集的沟通，不仅包括梯度或参数，还包括嵌入，使分布式GNN训练更具挑战性。如图1所示，训练过程需要不断查询目标节点、它们的邻居以及它们更远的邻居，以在工作节点之间迁移嵌入和梯度。因此，借助GNN聚合中的这种数据移动，由此产生的沟通成本可能占总培训时间的80%甚至更多[3,13,34]。

3）在分布式培训中，工作人员如何通信的底层系统架构是至关重要的，特别是对于具有大量通信开销的gnn。

本文提出Sancus，一种过时性感知的避免通信的去中心化GNN训练系统，通过自适应跳过广播和缓存过时性有限的历史嵌入。为了绕过gpu之间的非规则数据通信，首先重新审视了gnn -[34]分布的并行算法，以一种完全不同的方式降低通信开销。如图3所示，通过将GNN处理纯粹视为分布式方案中的矩阵乘法操作序列，每个GPU加载分裂子矩阵而不考虑语义。

其次，为进一步避免分散方案下的通信，本文建议将历史嵌入缓存和跳播，将其作为每个分布式过程中来自较早时代的嵌入子矩阵

第三，为了管理在每个GPU上使用混合版本嵌入所导致的系统过时性，本文提出了在集中式方案中广泛使用的有界梯度过时性的泛化

本文在去中心化gnn中提出一套新的有界嵌入陈旧性指标。特别是，Sancus自适应地跳过边界内的嵌入，并自动重用缓存的历史嵌入，以直接避免通信;否则，如果嵌入变得太过时，结果将被广播并在gpu之间的缓存中更新，以保持系统在一定范围内的过时性。

THE SANCUS FRAMEWORK

首先，我们在3.1节中逐步概述Sancus。算法1介绍了完全过时感知的避免通信的分散式全gnn训练算法。为了进一步阐述避免通信，我们在第3.3节和第3.4节中提出了相应的历史嵌入和跳过广播。为了管理由历史嵌入造成的系统过时性，我们在3.5节中提出了一组关于有界嵌入过时性的新指标。

1. Overview

本文提出Sancus，一种自适应的过时性感知通信避免分散式GNN系统。从根本上说，Sancus简单而有效，它基于一种避免矩阵阻塞的通用通信算法，用于并行计算，在分散GNN训练期间缓存和重用陈旧的历史嵌入，并相应地跳过广播。

我们在图4中概述了Sancus。主要有以下步骤:(1)数据加载，(2)过时边界检查，(3)嵌入广播，(4)GNN模型计算，以及(5)结果缓存。在这里，我们阐明了这些步骤:(1)首先，整个图的整个稀疏邻接矩阵和密集嵌入矩阵被分割为矩阵块，然后加载到单个工作者。每个worker都保存着自己完整模型的副本;(2)在每个GPU上，在广播最后的计算结果之前，我们检查历史嵌入的陈旧程度是否在建议的范围内。如果过时性在范围内，则跳过嵌入广播，并将缓存的历史嵌入重用于此迭代的模型计算;(3)否则，如果过期度超过限制，则将最新的结果广播给所有worker并在缓存中更新;(4)因此，将最新的嵌入或缓存的历史嵌入加载到GNN模型进行计算;(5) #最后，在广播之前，更新的嵌入被分派到下一次迭代的过时性检查。

2Staleness-Aware Communication-Avoiding Decentralized Training

首先，提出了算法1中避免分散全图gnn训练的全面的过时性感知通信，并详细阐述了其细节。有三个键:(1)工作状态 F(i)配备表示工作状态。状态被记录为ACTIVE或STALE，以支持3.4节中的跳过广播操作。(2)利用缓存存储来自其他工作节点的历史嵌入，可以在未来的迭代中重复使用，以避免通信;(3)容忍有界的嵌入过时性，以管理系统过时性，其中每个工作人员可以使用来自不同迭代的嵌入。

3. Skip-Broadcast

在去中心化方案中，问题是如何调整一对多广播等通信操作，以支持有界过时的历史嵌入。由于这种去中心化方案[34]的大多数实现都基于批量同步，因此直接实施历史嵌入具有挑战性。因此，我们提出了一个通信原语来实现，它不需要集中的参数服务器。特别地，设计了一种跳跃式广播(Skip-Broadcast)方案，允许在训练过程中无缝地重构通信拓扑结构。

4.Bounded Embedding Staleness

通过跳过广播来支持过时的嵌入，worker可能会嵌入与其他worker不同的迭代。针对这种混合版本问题，Sancus支持有界嵌入过时性。尽管在随机梯度下降(SGD)的传统分布式ML中对有界梯度陈旧性进行了深入研究[7,17,38]，但其主要目的是帮助SGD收敛，减轻陈旧梯度的负面影响。然而，我们积极利用陈旧的嵌入来避免通信。通过引入一组新的有界嵌入过时性指标

西西弗的小蚂蚁

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Staleness-Aware Communication-Avoiding Full-Graph Decentralized Training in Large-Scale Grap

否则，如果嵌入变得太过时，结果将被广播并在gpu之间的缓存中更新，以保持系统在一定范围内的过时性。从根本上说，Sancus简单而有效，它基于一种避免矩阵阻塞的通用通信算法，用于并行计算，在分散GNN训练期间缓存和重用陈旧的历史嵌入，并相应地跳过广播。本文提出Sancus，一种过时性感知的避免通信的去中心化GNN训练系统，通过自适应跳过广播和缓存过时性有限的历史嵌入。为避免worker之间昂贵的数据移动所导致的通信，本文提出Sancus，一种过时性感知的通信，避免分散的GNN系统。
复制链接

扫一扫