【分布式训练（2）】深入理解 DeepSpeed 的 ZeRO 内存优化策略 (三阶段的区别)

最新推荐文章于 2025-04-27 19:08:11 发布

多恩Stone

最新推荐文章于 2025-04-27 19:08:11 发布

阅读量1k

点赞数 8

分类专栏： Diffusion 编程学习 Transformer 文章标签：分布式 stable diffusion diffusers huggingface

本文链接：https://blog.csdn.net/weixin_44212848/article/details/142886819

版权

编程学习同时被 3 个专栏收录

108 篇文章

订阅专栏

Diffusion

55 篇文章

订阅专栏

Transformer

28 篇文章

订阅专栏

深入理解 DeepSpeed 的 ZeRO 内存优化策略

在深度学习领域，分布式训练是一个重要的研究方向，它允许我们利用多个GPU来加速模型的训练过程。然而，随着模型规模的增大，单个GPU的内存限制成为了一个瓶颈。为了解决这个问题，DeepSpeed 提供了一种名为 Zero Redundancy Optimizer（简称 ZeRO）的技术，它通过不同的阶段（stage）来优化内存使用，从而使得训练更大的模型成为可能。

ZeRO 的三个阶段

ZeRO 技术分为三个阶段，每个阶段都对应不同的内存优化策略。下面我们将详细介绍每个阶段的特点，并制作一个对比表格来更直观地展示它们之间的差异。

ZeRO Stage 1：优化器状态分片

在 ZeRO 的第一阶段，我们只对优化器状态进行分片。这意味着，优化器的状态（如权重和梯度）将被分布到多个GPU上，而不是每个GPU都存储完整的状态。这样做的好处是可以节省一部分显存，但模型参数和激活仍然需要在每个GPU上完整存储。

ZeRO Stage 2：优化器状态和梯度分片

第二阶段在第一阶段的基础上，进一步对梯度进行分片。这样，除了优化器状态外，梯度也被分布到多个GPU上。这进一步减少了每个GPU上的内存使用，从而提高了计算效率。

ZeRO Stage 3：参数、优化器状态和梯度分片

在第三阶段，我们实现了对所有模型状态的完全分片，包括模型参数。这意味着，模型的参数、优化器状态和梯度都将被分布到多个GPU上。这允许我们在相同的显存条件下训练更大的模型，但可能会增加通信开销。

ZeRO 各阶段对比表格

特性	ZeRO Stage 1	ZeRO Stage 2	ZeRO Stage 3
优化器状态	分片	分片	分片
模型梯度	完整存储	分片	分片
模型参数	完整存储	完整存储	分片
内存节省	部分节省	进一步节省	最大化节省
计算效率	一般	提高	提高
通信开销	低	中等	较高