[分布式训练] 单机多卡的正确打开方式：理论基础

最新推荐文章于 2024-10-28 00:52:45 发布

Adenialzz

最新推荐文章于 2024-10-28 00:52:45 发布

阅读量1.1k

点赞数 1

分类专栏： PyTorch GPU 文章标签：深度学习 pytorch gpu nvidia

原文链接：https://fyubang.com/2019/07/08/distributed-training/

版权

PyTorch 同时被 2 个专栏收录

37 篇文章

订阅专栏

GPU

30 篇文章

订阅专栏

本文介绍了分布式训练的三种主要方式：模型并行和数据并行，以及同步更新和异步更新。在模型过大无法容纳于单个GPU时，可以选择模型并行，但会增加通信开销；数据并行则更为常见，适合模型可以放入单个GPU的情况。同步更新确保所有GPU在更新参数时保持一致，而异步更新可能导致梯度过时和loss抖动。此外，文章还对比了ParameterServer和RingAllReduce两种参数同步算法，RingAllReduce通过减少通信成本提高了并行效率。最后，文中提到RingAllReduce已被各大框架采纳，成为提高深度学习模型训练效率的有效手段。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

[分布式训练] 单机多卡的正确打开方式：理论基础

转自：https://fyubang.com/2019/07/08/distributed-training/

瓦砾由于最近bert-large用的比较多，踩了很多分布式训练的坑，加上在TensorFlow和PyTorch之间更换，算是熟悉了一下各类框架的分布式训练接口，由于集中在一起讲可能比较乱，笔者准备分三到四篇来讲一下深度学习的分布式训练。这一篇先讲一下“分布式训练的类型与算法”。

分布式训练的需求和重要性不需要多说，随着GPT、BERT、xlnet这些预训练模型的出现，普通的16G的显存已经不足以支撑深度学习模型训练的要求了，这时候就需要用到分布式训练来提高效率。

注意：这个系列主要介绍单机多卡的分布式训练情况（这种情况比较常见，土豪和大佬们请忽略）。

总的来说，分布式训练分为这几类：

按照并行方式来分：模型并行 vs 数据并行
按照更新方式来分：同步更新 vs 异步更新
按照算法来分：Parameter Server算法 vs AllReduce算法

模型并行 vs. 数据并行

假设我们有n张GPU：

模型并行：不同的GPU输入相同的数据，运行模型的不同部分，比如多层网络的不同层。
数据并行：不同的GPU输入不同的数据，运行相同的完整模型。

在这里插入图片描述

当模型非常大，一张GPU已经存不下的时候，可以使用模型并行，把模型的不同部分交给不同的机器负责，但是这样会带来很大的通信开销，而且模型并行各个部分存在一定的依赖，规模伸缩性差。因此，通常一张可以放下一个模型的时候，会采用数据并行的方式，各部分独立，伸缩性好。

同步更新 vs. 异步更新

对于数据并行来说，由于每个GPU负责一部分数据，那就涉及到如果更新参数的问题，分为同步更新和异步更新两种方式。

同步更新：每个batch所有GPU计算完成后，再统一计算新权值，然后所有GPU同步新值后，再进行下一轮计算。
异步更新：每个GPU计算完梯度后，无需等待其他更新，立即更新整体权值并同步。

在这里插入图片描述

同步更新有等待，速度取决于最慢的那个GPU；异步更新没有等待，但是涉及到更复杂的梯度过时，loss下降抖动大的问题。所以实践中，一般使用同步更新的方式。

Parameter Server算法 vs. Ring AllReduce算法

这里讲一下常用的两种参数同步的算法：PS 和 Ring AllReduce。

假设有5张GPU：

Parameter Server：GPU 0将数据分成五份分到各个卡上，每张卡负责自己的那一份mini-batch的训练，得到grad后，返回给GPU 0上做累积，得到更新的权重参数后，再分发给各个卡。
Ring AllReduce：5张以环形相连，每张卡都有左手卡和右手卡，一个负责接收，一个负责发送，循环4次完成梯度累积，再循环4次做参数同步。分为Scatter Reduce和All Gather两个环节。

Parameter Server算法

在这里插入图片描述

Parameter Server的思想其实有点类似于MapReduce，以上讲同步异步的时候，都是用的这种算法，但是它存在两个缺点：

每一轮的训练迭代都需要所有卡都将数据同步完做一次Reduce才算结束，并行的卡很多的时候，木桶效应就会很严重，计算效率低。
所有的GPU卡需要和Reducer进行数据、梯度和参数的通信，当模型较大或者数据较大的时候，通信开销很大。

假设有 $N$ 个GPU，通信一次完整的参数所需时间为 $K$ ，那么使用PS架构，花费的通信成本为：
$T = 2 (N - 1) K$
所以我们亟需一种新的算法来提高深度学习模型训练的并行效率。

Ring AllReduce算法

2017 年 Facebook 发布了《Accurate, large minibatch SGD: Training ImageNet in 1 hour 》验证了大数据并行的高效性，同年百度发表了《Bringing HPC techniques to deep learning 》，验证了全新的梯度同步和权值更新算法的可行性，并提出了一种利用带宽优化环解决通信问题的方法——Ring AllReduce。

在这里插入图片描述