阿里云 PAIx 达摩院 GraphScope 开源基于 PyTorch 的 GPU 加速分布式 GNN 框架

阿里云云栖号

于 2023-06-21 11:06:23 发布

阅读量823

点赞数

分类专栏：云栖号技术分享文章标签： pytorch 阿里云开源机器学习云计算

本文链接：https://blog.csdn.net/yunqiinsight/article/details/131323920

版权

导读

近期阿里云机器学习平台 PAI 团队和达摩院 GraphScope 团队联合推出了面向 PyTorch 的 GPU 加速分布式 GNN 框架 GraphLearn-for-PyTorch(GLT) 。GLT 利用 GPU 的强大并行计算性能来加速图采样，并利用 UVA 来减少顶点和边特征的转换和拷贝。对于大规模图，GLT 使用了生产者-消费者的架构，通过异步并发的分布式采样和特征查找以及热点缓存功能支持在多个 GPU 或多个机器上进行高效的分布式训练。接口上，GLT 保持了 PyTorch的风格，并且和 PyG 兼容，只需少量代码修改就可以加速 PyG 的单机训练程序，或者将 PyG 单机模型改成分布式训练。此外，GLT 还提供了灵活的分布式训练部署以满足不同的需求。

开源地址：https://github.com/alibaba/graphlearn-for-pytorch

文档地址：https://graphlearn-torch.readthedocs.io/en/latest/index.html

背景介绍

图神经网络作为一种图数据上表示学习的方法已经被广泛应用在图相关的各个领域，在电商推荐、安全风控、生物分子等领域取得了实际落地。图神经网络由于其独特的数据处理逻辑和神经网络计算逻辑，需要有专门的学习框架来支持训练。PAI团队之前开源了大规模工业级分布式图学习框架 GraphLearn（https://github.com/alibaba/graph-learn）。GraphLearn 以 TensorFlow 1.x 系列为主，采用 ps 架构的异步训练模式，支持十亿节点，百亿边规模的大规模异构图分布式训练，应用于阿里内外部若干业务场景。随着PyTorch 的流行，其更加灵活的贴近 Python 的接口，简单易调试等特性使得算法开发者更倾向于使用 PyTorch 开发模型。DGL 和 PyG等基于PyTorch的开源GNN框架以单机为主，无法支持大规模图的分布式训练。

此外，由于 GPU 并行计算的优势，图神经网络使用 GPU 训练比 CPU 训练有数倍的提升。然而常见的图神经网络框架将图拓扑数据和特征存在内存里，使用CPU进行采样和特征查找并将数据拷贝到GPU进行神经网络训练，这个过程中图采样和特征查找部分很容易成为整体训练的瓶颈。下面我们以大规模图上典型的训练流程为例对训练过程的性能瓶颈进行分析说明。

一个典型的GNN训练流程[1] 包括:

子图拓扑采样，采样多跳邻居并组成子图&

最低0.47元/天解锁文章

阿里云云栖号

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
阿里云 PAIx 达摩院 GraphScope 开源基于 PyTorch 的 GPU 加速分布式 GNN 框架

GLT 利用 GPU 的强大并行计算性能来加速图采样，并利用 UVA 来减少顶点和边特征的转换和拷贝。对于大规模图，GLT 使用了生产者-消费者的架构，通过异步并发的分布式采样和特征查找以及热点缓存功能支持在多个 GPU 或多个机器上进行高效的分布式训练。
复制链接

扫一扫