模型训练中数据并行（DP）、模型并行（MP）、管道并行（PP）理解

EEE1even

已于 2024-11-20 19:41:47 修改

阅读量1.2k

点赞数 11

文章标签：模型训练模型加速语言模型

于 2024-11-20 19:37:11 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_48435461/article/details/143923450

版权

模型训练中DP、MP、PP理解

在模型训练中，DP（Data Parallelism）、MP（Model Parallelism）、和 PP（Pipeline Parallelism）是三种常见的并行训练技术，主要用于分布式训练和大模型训练，以解决资源限制和训练效率问题。以下是它们的概念、作用及适用场景：

1. DP（Data Parallelism, 数据并行）

概念

数据并行将整个模型复制到多个设备（通常是 GPU），然后将输入数据划分成小批次（mini-batches），分别分配到各个设备中进行并行计算。各设备独立计算梯度后，进行梯度同步。

流程

将数据分成多个小批次（每个设备一份）。
每个设备使用完整的模型计算前向和后向传播。
通过通信操作（如 allreduce）聚合各设备上的梯度。
同步梯度后更新模型参数。

优点

易于实现，支持现成的框架（如 PyTorch 和 TensorFlow）。
对数据的分布和通信需求较低。
通常是小模型分布式训练的首选。

缺点

每个 GPU 需要保存完整的模型副本，受显存限制较大。
通信开销随着设备数量增加而增大。

适用场景

模型较小，显存能够容纳完整模型。
数据量较大，计算密集型任务。

2. MP（Model Parallelism, 模型并行）

概念

模型并行将模型本身划分为不同部分，并分布在多个设备上。这些设备负责不同部分的前向和后向传播。

流程

划分模型的不同层或权重到不同设备。
训练时，按顺序在不同设备上进行前向传播。
反向传播时，各设备按依赖关系计算梯度。

优点

可以训练超大模型，突破单个设备显存限制。
避免了数据并行中模型的冗余存储。

缺点

各设备间需要频繁通信，带来较大开销。
对模型的划分需要手动设计，开发复杂。

适用场景

模型较大（如 GPT-3 等超大模型），单个 GPU 无法容纳完整的模型。
对显存资源要求较高的任务。

3. PP（Pipeline Parallelism, 管道并行）

概念

管道并行是一种特殊的模型并行，将模型按层级划分为不同阶段，每个阶段放在不同设备上。数据以管道方式在各阶段间传递，设备可以并行处理不同 mini-batch 的不同部分。

流程

将模型分为若干阶段（例如 3 层、5 层等）。
每个阶段分配到一个设备。
输入数据划分为多个 mini-batch，按顺序在各阶段间传递。
各设备同时处理不同 mini-batch 的前向或后向传播。

优点

适合超大模型的分布式训练。
利用了设备间的管道并行，提高了资源利用率。

缺点

实现复杂，需要仔细设计模型的分割。
各阶段设备间通信延迟较大，可能导致管道阻塞。
训练的吞吐量受制于最慢阶段。

适用场景

模型超大且层数多（如 GPT 系列、BERT 等）。
需要充分利用设备资源进行分布式训练。

综合比较

特性	DP（数据并行）	MP（模型并行）	PP（管道并行）
复杂度	简单	中等	高
通信开销	高	中	中
显存利用率	高（冗余存储）	低（分割模型）	中（部分冗余）
适用模型大小	小到中型	大型	超大型
适用任务	数据密集型	模型密集型	超大模型管道训练

实际应用

通常结合使用这三种并行方式：

DP + MP：在同一设备内使用模型并行，跨设备使用数据并行。
DP + PP：对超大模型，按层分割模型到不同设备，管道训练，再结合数据并行提升效率。
DP + MP + PP：LLM（如 GPT-4）的典型训练方式，充分利用分布式计算资源。

框架支持

PyTorch: 提供 torch.nn.DataParallel 和 torch.distributed 支持数据并行和分布式训练。
DeepSpeed: 专注于优化大模型的并行训练，支持 DP、MP、PP 的组合。
Megatron-LM: 专为超大模型设计，支持模型并行和管道并行。
TensorFlow: 提供 tf.distribute 用于分布式训练。

博客等级

码龄5年

63
原创

470
点赞

818
收藏

323
粉丝

关注

私信

热门文章

分类专栏

笔记 3篇

展开全部收起

最新评论

vllm减小显存 | vllm小模型大显存问题
_illusion_: 啥乱七八糟的，lz自己都没搞明白就来误导人了。。
vllm减小显存 | vllm小模型大显存问题
weixin_56890967: max_num_seqs：一次推理最多能处理的sequences数量，默认值是256。max_num_seqs越大，能处理的请求数量就会越大，但提升也会有上限，不一定是越大越好
vllm减小显存 | vllm小模型大显存问题
萧瑟_天道酬勤: --max-num-seqs是每次迭代的最大序列数。更多的是和内存有关
解决java使用API连接HBase超时、连不上问题
与光同尘_y: 终于解决了，感谢博主。搞了两天了，Windows下的Java控制台没有输出一直都是连接上，但是表信息查不到。原因在于我使用的是内嵌的zookeeper，在虚拟机的hbase-site.xml里面没有配置quorum这一项，但是需要把它加入到java项目中
Linux查看当前目录中的文件大小
CSDN-Ada助手: 不知道 CS入门技能树是否可以帮到你：https://edu.csdn.net/skill/gml?utm_source=AI_act_gml

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

EEE1even 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。