大模型LLM 分布式训练技术原理数据并行 FSDP DDP ZeRO 模型并行 MLP切分流水线并行层间并行序列并行sequence parallelism MoE 混合专家模型

最新推荐文章于 2024-08-14 16:46:58 发布

EwenWanW

最新推荐文章于 2024-08-14 16:46:58 发布

阅读量1k

点赞数 16

文章标签：分布式 llama 训练

本文链接：https://blog.csdn.net/xiaoxiaowenqiang/article/details/137794075

版权

本文深入探讨了分布式训练的核心技术，包括数据并行（如FSDP、DDP、ZeRO）和模型并行策略。数据并行通过将模型切分和参数分片降低内存需求，而模型并行如流水线并行和序列并行则通过分割模型的不同部分在多设备间协同训练。此外，混合专家模型MoE通过激活部分专家以节省计算资源，是分布式训练中的重要优化手段。

摘要由CSDN通过智能技术生成

分布式训练技术原理

分布式训练技术的核心原理之一是利用多个计算节点或机器来协同完成模型的训练任务，从而加速训练过程。其中，数据并行是分布式训练中的一种重要策略。

数据并行

数据并行（Data Parallelism）是指将大数据集拆分成多个小的数据子集（也称为shards或分片），并分配给不同的计算节点进行并行处理。每个节点都运行相同的模型副本，并独立地对分配给自己的数据子集进行计算。计算完成后，各节点的结果会进行汇总，以得到最终的模型更新。

FSDP

在数据并行中，FSDP（Fully Sharded Data Parallel）是一种特殊的实现方式。FSDP算法基于DeepSpeed的ZeroRedundancyOptimizer技术，并经过修改以确保与PyTorch等其他组件的兼容性。它的核心思想是将模型实例分解为更小的单元，并对每个单元内的参数进行扁平化和分片处理。

在FSDP中，模型的参数被切分为多个部分，并分布到不同的计算节点上。每个节点仅持有模型的一部分参数，并处理对应的数据子集。由于每个节点只处理部分参数，因此在计算过程中需要进行跨节点的通信，以确保参数的正确更新。这种分片方式大大减少了单个节点的内存占用，使得模型可以扩展到更大的规模。

FSDP中的分片参数在计算前按需进行通信和恢复，计算结束后立即丢弃。这种设计确保了每次只需要处理一个单元的参数，从而降低了峰值内存消耗。此外，FSDP还提供了可配置的分片策略，以适应不同集群的物理互连拓扑和硬件异构性。

总的来说，FSDP通过数据并行和参数切分的方式，实现了分布式训练中的高效计算和内存管理，为训练大规模模型提供了有力的支持。

FSDP算法是由来自DeepSpeed的ZeroRedundancyOptimizer技术驱动的，但经过修改的设计和实现与PyTorch的其他组件保持一致。FSDP将模型实例分解为更小的单元，然后将每个单元内的所有参数扁平化和分片。分片参数在计算前按需通信和恢复，计算结束后立即丢弃。这种方法确保FSDP每次只需要实现一个单元的参数，这大大降低了峰值内存消耗。(数据并行+Parameter切分)

DDP

DistributedDataParallel（DDP）是分布式训练中的一种关键技术，它的核心思想是在每个设备上维护一个模型副本，并通过向后传递的集体AllReduce操作同步梯度，确保在训练期间跨副本的模型一致性。

在DDP中，每个设备（如GPU）都会复制一份模型，并且每个设备都会处理一部分数据。每个设备上的模型都会独立地进行前向传播和反向传播计算，生成对应的梯度。然后，通过AllReduce操作，所有设备上的梯度会被汇总并平均，以确保每个设备上的模型更新是一致的。

为了加快训练速度，DDP还采用了梯度通信与向后计算重叠的策略。这意味着在反向传播计算梯度的同时，梯度通信也在进行。这种并发执行的方式可以充分利用计算资源，减少训练过程中的等待时间，从而提高训练效率。

此外，DDP还支持单机多卡和多机多卡的配置，使得训练可以更加灵活和高效。同时，它还提供了数据分配的均衡性，确保每个设备都能得到适量的数据进行处理，避免了数据倾斜的问题。

DistributedDataParallel（DDP）通过模型复制、梯度同步和并发执行等策略，实现了分布式训练的高效性和一致性，为大规模模型的训练提供了有力的支持。

DistributedDataParallel (DDP)， 在每个设备上维护一个模型副本，并通过向后传递的集体AllReduce操作同步梯度，从而确保在训练期间跨副本的模型一致性 。为了加快训练速度， DDP将梯度通信与向后计算重叠 ，促进在不同资源上并发执行工作负载。

ZeRO

ZeRO（Zero Redundancy Optimizer）是微软在2019年提出的一种高效的数据并行方案，其核心思想是通过将模型参数、梯度和优化器状态划分到多个GPU上，降低单个GPU的显存使用量，从而支持更大规模的深度学习模型训练。ZeRO的主要优势在于它消除了分布式训练数据并行中的冗余性，同时维持了较低的通信量和较高的计算粒度。

在ZeRO中，模型的状态被划分为不同的部分，并分布到各个GPU上。具体来说，ZeRO有三种不同的优化级别：ZeRO-1、ZeRO-2和ZeRO-3，它们各自在显存使用和通信效率上有所不同。

ZeRO-1将优化器状态分成若干份ÿ

最低0.47元/天解锁文章

EwenWanW

关注

16
点赞
踩
27

收藏

觉得还不错? 一键收藏
打赏
0
评论
大模型LLM 分布式训练技术原理数据并行 FSDP DDP ZeRO 模型并行 MLP切分流水线并行层间并行序列并行sequence parallelism MoE 混合专家模型

分布式训练技术的核心原理之一是利用多个计算节点或机器来协同完成模型的训练任务，从而加速训练过程。其中，数据并行是分布式训练中的一种重要策略。
复制链接

扫一扫