大模型加速之分布式训练策略综述_大模型训练加速综述-CSDN博客

本文链接：https://blog.csdn.net/weixin_48373245/article/details/147300489

在大规模深度学习模型训练中，单机训练无法满足内存和计算需求，通常会使用分布式训练来加速训练过程，特别是当模型和数据非常大时。以下是常见的几种分布式训练策略及其原理。

🌟 1. 数据并行（Data Parallelism）

原理：

数据并行的核心思想是将 训练数据 划分为多个小批次（mini-batches），每个设备（GPU）处理一个数据子集，同时每个设备上有相同的 模型副本。每个设备分别计算自己的梯度，然后通过通信（如 AllReduce）来汇总和同步所有设备的梯度，并更新全局模型参数。

图示：

+-------------+     +-------------+     +-------------+
|  GPU 0      |     |  GPU 1      |     |  GPU 2      |
|  Data A     |     |  Data B     |     |  Data C     |
|  Compute    |     |  Compute    |     |  Compute    |
|  Gradients  |     |  Gradients  |     |  Gradients  |
+-------------+     +-------------+     +-------------+
         \               |                  /
          \  AllReduce Sync (Gradient Sync)  /
           \             |                /
           +---------------------------+
           |  Global Model Update      |
           +---------------------------+

数据并行过程：

数据分割：将训练数据按批次分配给多个 GPU。
并行计算：每个 GPU 上计算模型输出和梯度。
梯度同步：所有 GPU 会通过通信（如 AllReduce）同步梯度。
参数更新：使用同步后的梯度更新全局模型参数。

优点：

简单直观，适用于大规模数据集。
每个设备上都有完整的模型副本，保证计算的高效性。

缺点：

通信开销：所有 GPU 需要同步和交换梯度，通信延迟较大，尤其是当设备数目非常多时。
显存冗余：每个设备都保存完整的模型副本，显存使用效率低。

🌟 2. 模型并行（Model Parallelism）

原理：

模型并行的核心思想是将模型的不同部分分配到不同的设备上，每个设备只负责计算模型的一部分。每个设备存储的不是整个模型，而是模型的一部分（如层或模块）。设备之间需要交换中间计算结果。

模型并行过程：

模型分割：将大模型按层或者子模块切分，分配到不同的 GPU 上。
计算：每个设备计算自己负责的部分。
交换中间结果：各个设备之间需要交换计算结果。
参数更新：设备根据计算结果更新本地的模型参数。

图示：

+--------------------+       +--------------------+
|      GPU 0         |       |      GPU 1         |
|   Layer 1, 2       |<----->|   Layer 3, 4       |
|   Compute Output   |       |   Compute Output   |
+--------------------+       +--------------------+
            \                     /
             \    Communicate     /
              \   Intermediate    /
               \     Results     /
                +----------------+
                |   Combine      |
                |   Results      |
                +----------------+
                    |
             Global Model Update

优点：

适用于超大模型，当模型太大，单个 GPU 无法容纳时，使用模型并行可以将模型分布到多个设备上。
每个设备只需存储模型的一部分，显存利用更高。

缺点：

通信开销大：设备间需要交换中间结果，尤其是当模型较深时，设备之间的通信开销很大。
负载不均：某些层的计算量大，某些层的计算量小，可能导致负载不均衡。

🌟 3. 混合并行（Hybrid Parallelism）

原理：

混合并行结合了 数据并行 和 模型并行，以达到更高的训练效率和显存利用率。通常会将数据并行和模型并行结合，利用每个设备处理部分数据和部分模型的能力。

混合并行过程：

模型分割（模型并行）：将模型分为多个部分，每部分放到不同的设备上。
数据分割（数据并行）：每个设备处理不同的数据子集。
通信和同步：在不同设备之间交换模型参数和梯度，保持一致性。
参数更新：更新全局模型参数。

图示：

+-------------+       +-------------+       +-------------+
|   GPU 0     |       |   GPU 1     |       |   GPU 2     |
|  Layer 1    |<----->|  Layer 2    |<----->|  Layer 3    |
|  Data A     |       |  Data B     |       |  Data C     |
|  Compute    |       |  Compute    |       |  Compute    |
|  Gradients  |       |  Gradients  |       |  Gradients  |
+-------------+       +-------------+       +-------------+
         \                   |                     /
          \    AllReduce Sync (Gradient Sync)     /
           \                |                   /
           +---------------------------+
           |        Global Update       |
           +---------------------------+