ByteGNN: Efficient Graph Neural Network Training at Large Scale
图神经网络(gnn)在推荐、风险控制和药物发现等广泛的应用中表现出优异的性能。随着图数据量的增加,分布式GNN系统对于支持高效的GNN训练变得至关重要。然而,现有的分布式GNN训练系统存在网络通信成本高、CPU利用率低、端到端性能差等问题。本文提出了ByteGNN,通过3个关键设计来解决现有分布式GNN系统中的局限性:(1)抽象的小批量图采样以支持高并行性;(2)两级调度策略以提高资源利用率并减少端到端GNN训练时间;实验表明,与目前最先进的分布式GNN系统相比,ByteGNN的端到端执行速度提高了3.5 ~ 23.8倍,CPU利用率提高了2 ~ 6倍,网络通信成本降低了约一半。