大模型 - 分布式训练方法汇总

想胖的壮壮

已于 2024-08-10 17:44:56 修改

阅读量1.5k

点赞数 25

文章标签：分布式

于 2024-08-10 15:25:08 首次发布

本文链接：https://blog.csdn.net/weixin_47552266/article/details/141091527

版权

在深度学习和模型训练中，利用 GPU 进行加速是常见的做法，而在拥有多张显卡的情况下，学会查看本地的 GPU 列表并合理选择分布式并行训练的方法是提高训练效率的重要手段。接下来，我将介绍如何使用 Python 查看本地的显卡列表，讲解几种常见的分布式训练方法及其具体实现代码，并对这些方法进行比较分析，以便你选择最适合的方案。

在这里插入图片描述

1. 如何查看本地的显卡列表

你可以通过多种方式查看本地的显卡列表。例如，使用 GPUtil 库可以轻松获取显卡信息：

import GPUtil

# 获取所有可用的显卡信息
gpus = GPUtil.getGPUs()

for gpu in gpus:
    print(f"GPU ID: {gpu.id}, Name: {gpu.name}, Driver Version: {gpu.driver}, Memory Total: {gpu.memoryTotal}MB")

如果你希望查看 NVIDIA 显卡的状态信息，可以使用 py3nvml 库：

from py3nvml import nvmlInit, nvmlDeviceGetCount, nvmlDeviceGetHandleByIndex, nvmlDeviceGetName

# 初始化 NVML
nvmlInit()

# 获取显卡数量
device_count = nvmlDeviceGetCount()

for i in range(device_count):
    handle = nvmlDeviceGetHandleByIndex(i)
    print(f"GPU {i}: {nvmlDeviceGetName(handle).decode('utf-8')}")

对于已经安装了 PyTorch 的用户，可以直接使用 PyTorch 自带的函数来查看可用的 CUDA 设备：

import torch

if torch.cuda.is_available():
    for i in range(torch.cuda.device_count()):
        print(f"GPU {i}: {torch.cuda.get_device_name(i)}")
else:
    print("No CUDA-compatible GPU found.")

2. 分布式并行训练的方法及其实现

在确认显卡资源后，分布式并行训练可以帮助你充分利用多张显卡，提高训练效率。以下是几种常见的方法及其实现代码：

DataParallel（适用于 PyTorch）

DataParallel 是 PyTorch 中的一个简单方法，适合初学者。它会自动将数据分配到多个 GPU 上并汇总结果。然而，由于所有结果都需通过主 GPU，可能导致 GPU 利用率低。

import torch
import torch.nn as nn

# 假设 model 是你的神经网络模型
model = nn.DataParallel(model)
model = model.to('cuda')  # 将模型放到 GPU 上

# 训练时，DataParallel 会自动将数据分配到多个 GPU
for inputs, labels in dataloader:
    inputs, labels = inputs.to('cuda'), labels.to('cuda')
    outputs = model(inputs)
    loss = criterion(outputs, labels)
    loss.backward()
    optimizer.step()

DistributedDataParallel（适用于 PyTorch）

DistributedDataParallel 是 PyTorch 中推荐的分布式训练方法，适用于单机或多机多 GPU 环境。它有效减少了 GPU 之间的通信开销，是大规模训练的理想选择。

import torch
import torch.distributed as dist
import torch.nn as nn
from torch.nn.parallel import DistributedDataParallel as DDP

# 初始化分布式环境
dist.init_process_group(backend='nccl')

# 创建模型并放到 GPU
model = model.to('cuda')
model = DDP(model, device_ids=[your_gpu_id])

# 训练模型
for inputs, labels in dataloader:
    inputs, labels = inputs.to('cuda'), labels.to('cuda')
    outputs = model(inputs)
    loss = criterion(outputs, labels)
    loss.backward()
    optimizer.step()

Horovod（适用于 TensorFlow 和 PyTorch）

Horovod 是一个支持 TensorFlow、Keras 和 PyTorch 的开源库，简化了多 GPU 和多节点的分布式训练过程。

import horovod.torch as hvd
import torch.nn as nn
import torch.optim as optim

# 初始化 Horovod
hvd.init()

# 设置 GPU 设备
torch.cuda.set_device(hvd.local_rank())

# 将模型移动到 GPU
model = model.to('cuda')

# 包装优化器
optimizer = optim.SGD(model.parameters(), lr=0.01)
optimizer = hvd.DistributedOptimizer(optimizer, named_parameters=model.named_parameters())

# 广播初始变量
hvd.broadcast_parameters(model.state_dict(), root_rank=0)

# 训练模型
for inputs, labels in dataloader:
    inputs, labels = inputs.to('cuda'), labels.to('cuda')
    outputs = model(inputs)
    loss = criterion(outputs, labels)
    loss.backward()
    optimizer.step()

MirroredStrategy（适用于 TensorFlow）

TensorFlow 提供了 tf.distribute.MirroredStrategy 来简化在多 GPU 上的分布式训练。

import tensorflow as tf

# 使用 MirroredStrategy 进行多 GPU 并行
strategy = tf.distribute.MirroredStrategy()

with strategy.scope():
    # 创建和编译模型
    model = create_model()
    model.compile(loss='sparse_categorical_crossentropy',
                  optimizer='adam',
                  metrics=['accuracy'])

# 训练模型
model.fit(train_dataset, epochs=10)

DeepSpeed（适用于 PyTorch）

DeepSpeed 是一个针对大规模分布式训练的优化库，可以帮助你在多 GPU 环境下高效地训练大型模型。

import deepspeed

# 初始化 DeepSpeed
model_engine, optimizer, _, _ = deepspeed.initialize(
    model=model,
    model_parameters=model.parameters(),
    config_params='deepspeed_config.json'
)

# 训练模型
for inputs, labels in dataloader:
    inputs, labels = inputs.to('cuda'), labels.to('cuda')
    outputs = model_engine(inputs)
    loss = criterion(outputs, labels)
    model_engine.backward(loss)
    model_engine.step()

3. 不同方法之间的对比

在实际应用中，不同的分布式训练方法有各自的特点和适用场景。以下是对这些方法的简要对比：

方法	框架支持	数据并行类型	适用场景	优点	缺点
DataParallel	PyTorch	同步数据并行	单机多 GPU	实现简单，适合快速上手	GPU 利用率低，主 GPU 成为瓶颈
DistributedDataParallel	PyTorch	同步数据并行	单机/多机多 GPU	高效，适合大规模训练，减少 GPU 间通信开销	实现相对复杂，需要初始化分布式环境
Horovod	TensorFlow, Keras, PyTorch	同步数据并行	单机/多机多 GPU，特别是多节点训练	简化分布式训练，支持多种框架，集成方便	需要安装和配置，初学者可能觉得复杂
MirroredStrategy	TensorFlow	同步数据并行	单机多 GPU	简单易用，原生支持 TensorFlow	仅限于 TensorFlow，适用范围有限
DeepSpeed	PyTorch	混合并行（数据并行、模型并行）	大规模模型训练	优化大模型训练，支持模型并行、梯度压缩等	配置复杂，适合有一定经验的用户

总结

在查看本地 GPU 列表后，你可以根据具体需求选择合适的分布式并行训练方法。DataParallel 简单易用，适合快速上手，而 DistributedDataParallel 则是 PyTorch 中高效的分布式训练方法。Horovod 提供了跨框架的支持，适合多节点训练，而 MirroredStrategy 是 TensorFlow 用户的优选。DeepSpeed 针对大规模模型训练进行了优化，是有经验用户的强大工具。选择合适的方法可以大幅提升你的模型训练效率和效果。