YOLOv5系列(四十八) 解读多GPU，SyncBatchNorm训练

小酒馆燃着灯

已于 2025-04-25 09:34:16 修改

阅读量1k

点赞数 27

分类专栏：人工智能（机器学习-深度学习-目标检测）文章标签： YOLO 人工智能深度学习 pytorch python

于 2023-12-10 19:34:36 首次发布

本文链接：https://blog.csdn.net/weixin_44302770/article/details/134912888

版权

人工智能（机器学习-深度学习-目标检测）专栏收录该内容

95 篇文章 ¥29.90 ¥99.00

订阅专栏

文章目录

前言
训练
- 单 GPU
- 多[GPU数据并行](https://pytorch.org/docs/stable/nn.html#torch.nn.DataParallel)模式（不推荐）
- 多GPU [DistributedData并行](https://pytorch.org/docs/stable/nn.html#torch.nn.parallel.DistributedDataParallel)模式（推荐）
使用特定GPU
使用SyncBatchNorm
使用DistributedDataParallel
- 笔记
结果

介绍了如何在单台或多台机器上正确使用多个 GPU 通过 YOLOv5 训练数据集。

前言

克隆存储库和安装要求.txt在 Python>=3.8.0 环境中，包括 PyTorch>=1.8。模型和数据集从最新的 YOLOv5 版本自动下载。

git clone https://github.com/ultralytics/yolov5  # clone
cd yolov5
pip install -r requirements.txt  # install

专业提示！建议将 Docker Image 用于所有多 GPU 训练。

专业

了解本专栏

订阅专栏解锁全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小酒馆燃着灯

关注关注

27
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

订阅专栏

【目标检测-YOLO】YOLOv5 Multi-GPU 训练

博观约取，厚积薄发

04-12

8977

📚本指南解释了如何正确地在一个或者多个机器上使用多gpu 在一个数据集上训练训练YOLOv5🚀。2022年4月6日更新。 https://github.com/ultralytics/yolov5/issues/475 在开始之前克隆仓库并且在一个Python>=3.7.0环境下安装requirements.txt，包括PyTorch>=1.7.Models和datasets自动下载从最新的 YOLOv5release. git clone htt......

多个GPU如何训练yolov5模型呢?Multi-GPU Training多个GPU如何训练呢？？

pvmsmfchcs的博客

06-22

491

Multi-GPU Training多个GPU如何训练呢。

参与评论您还未登录，请先登录后发表或查看评论

目标检测 YOLOv5 - 多机多卡训练

二分掌柜的

08-18

8947

目标检测 YOLOv5 - 多机多卡训练 flyfish 环境： Python>=3.6.0 PyTorch>=1.7 YOLOv5:v5 分两种类型机器一个master，其他都是slave master机器运行的命令 python -m torch.distributed.launch --nproc_per_node G --nnodes N --node_rank 0 --master_addr "192.168.1.2" --master_port 1234 train.py --b

YOLOV5分布式训练的详细指南

最新发布

浩瀚之水的专栏

03-25

795

分布式训练成为了加速YOLO训练的有效方式，可以大大缩短训练时间并提高训练效率。

YOLOv5多GPU训练

康康的博客

03-03

1万+

一、准备安装yolov5依赖，要求Python>=3.8以及PyTorch>=1.7 git clone https://github.com/ultralytics/yolov5 # clone repo cd yolov5 pip install -r requirements.txt 二、选择预训练模型这里我们选择YOLOv5s，训练数据集我们用COCO。三、单GPU训练 $ python train.py --batch-size 64 --data coco.yaml

关于YOLOv5的训练，GPU单卡、多卡设置，加速训练

qq_44442727的博客

12-22

9694

yolov5毫无疑问是目前目标检测框架中非常准确快速的检测框架之一，在工业界和学术界应用广泛，其优势不言而喻。在模型训练或推理时，我们都想快速完成，特别是数据量很大的时候，效率就是非常迫切需要提升的。这里简单介绍一下yolov5的多种训练方法，便于理解深度学习的模型训练方法，同时基于自身的硬件条件选择高效的训练方法。如果条件允许，首推的是多卡DDP训练模式。

部署YOLOV5环境到服务器进行多GPU训练

CSDN1621564706的博客

06-09

1373

点我访问AutoDl官网点我访问torch官网在服务器中安装python扩展因为代码我们在本地已经跑通了，所以直接运行train.py即可进行默认单GPU训练：

YOLOv5系列(三十五) 解读PyTorch中的SyncBatchNorm(详尽)

专注于人工智能学习，总结

12-02

1699

我们知道在分布式数据并行多卡训练的时候，BatchNorm 的计算过程（统计均值和方差）在进程之间是独立的，也就是每个进程只能看到本地 GlobalBatchSize / NumGpu 大小的数据。对于一般的视觉任务比如分类，分布式训练的时候，单卡的 batch size 也足够大了，所以不需要在计算过程中同步 batchnorm 的统计量，因为同步也会让训练效率下降。

一文实现yolov5实例分割（数据标注、标签转换、模型训练、模型推理）

黎国溥

04-12

5516

在yolov5的v7版本支持实例分割，本文记录一下yolov5实例分割的完全过程，包括制作自己的数据集，标签转换，然后训练模型，测试模型效果。

YOLOv5源码逐行超详细注释与解读（3）——训练部分train.py

热门推荐

路人贾的博客

03-11

3万+

全网最详细的YOLOv5项目源码解读之训练部分train. py。全文近5万字！代码逐行注释，逐段讲解，小白入门必备！

深度学习物体检测之YOLOV5源码解读

weixin_58351028的博客

12-15

1196

先打开common.py中的class BottleneckCSP中的代码，可看到模型BottleneckCSP的每一层定义(如conv,conv2d,batchnorm2d,leakyrelu,sequential)情况(__init__)，然后计算的forward方法(主要是对__init__定义的各层之间进行怎样的先后计算,组合等)在forward_once方法中它会for每一个模型，然后会在common.py文件中调用相应的模型class，并进入这个类中的forward方法执行。

Synchronized-BatchNorm-PyTorch：PyTorch中的同步批处理规范化实现

02-28

同步批处理标准PyTorch PyTorch中的同步批处理规范化实现。此模块与内置的PyTorch BatchNorm不同，因为在训练过程中所有设备的均值和标准差都减小了。例如，当在训练期间使用nn.DataParallel封装网络时，PyTorch的实现仅使用该设备上的统计信息对每个设备上的张量进行归一化，这加快了计算速度，并且易于实现，但统计信息可能不准确。相反，在此同步版本中，将对分布在多个设备上的所有训练样本进行统计。请注意，对于单GPU或仅CPU的情况，此模块的行为与内置的PyTorch实现完全相同。该模块目前仅是用于研究用途的原型版本。如下所述，它有其局限性，甚至可能会遇到一些设计问题。如果您有任何疑问或建议，请随时或。为什么要同步BatchNorm？尽管在多个设备（GPU）上运行BatchNorm的典型实现速度很快（没有通信开销），但不可避免地会

Pytorch多GPU的计算和Sync BatchNorm

01-06

nn.DataParallel pytorch中使用GPU非常方便和简单： import torch import torch.nn as nn input_size = 5 output_size = 2 class Model(nn.Module): def __init__(self, input_size, output_size): super(Model, self).__init__() self.fc = nn.Linear(input_size, output_size) def forward(self, input):

yolov5 v4.0 gpu上训练出来的模型文件

02-27

具体见：https://blog.csdn.net/jrckkyy/article/details/114183646

萤火跑模型 | 多卡并行实现 YOLOv5 高性能训练

weixin_66945478的博客

12-09

1434

总的来说，完整的 hfai 相比原始训练方式有将近 50% 的训练提速，这得益于优秀的训练数据集管理，高速存储系统和优良的算子与通信能力；与轻量版 hfai 对比中，我们可以明显看到，在使用同样的数据加载模式下，hfreduce 和 hfai 优化算子充分利用加速卡计算资源，加速的具体表现为整体有近 20% 的进一步提速。YOLOv5 作为目标检测领域的旗舰模型，受到了广泛的关注。我们借助幻方萤火集群，很轻松地实现了集群特性与这套新的开发模式的打通，获得明显的加速效果，证明了萤火集群的易用性和实力。

yolov5（Pytorch框架）windows下（使用GPU）训练自己的模型（手把手教学）

m0_58044187的博客

03-28

2281

yolov5训练

训练yolov5

weixin_43969718的博客

01-25

592

如何训练自己的yolov5 1，首先是自己的环境问题，不多说，有位博主环境配置的很详细，可以参考环境配置 2，接下来就是代码，网上yolov5大多数都是data文件夹下有Annotations和images等一共5个文件夹，我这个版本不太一样，是将xml和jpg文件放到一起 ...

YOLOv5 gpu 训练自定义模型训练

紫蝶侠的博客

09-15

6277

复制一份，比如为path: ../datasets/CHV_dataset # 数据所在目录train: images/train # 训练集图片所在位置（相对于path）val: images/val # 验证集图片所在位置（相对于path）test: # 测试集图片所在位置（相对于path）（可选）# 类别nc: 6 # 类别数量。

yolov8使用多张GPU进行训练

qq_44747572的博客

10-17

4023

【代码】yolov8使用多张GPU进行训练。

yolov8多gpu训练有时报错

03-11

### YOLOv8 多GPU 训练常见错误及其解决方案 #### SyncBatchNorm 使用不当引起的性能下降当使用 `--sync-bn` 参数时，虽然可以提升多GPU训练的精度[^1]，但这通常会导致显著的速度减慢。此参数仅推荐用于分布式数据并行模式下的小批量处理（每张显卡上的 batch size 小于等于 8）。如果不需要特别高的精度或者批次大小较大，则建议关闭同步批标准化选项。 #### MKL_THREADING_LAYER 不兼容问题对于因MKL线程层设置不匹配而导致的错误消息：“mkl-service + Intel(R) MKL: MKL_THREADING_LAYER=INTEL is incompatible with libgomp-a34b3233.so.1 library”，可以通过调整环境变量来解决这个问题。具体方法是在启动脚本之前执行命令 `export MKL_SERVICE_FORCE_INTEL=1` 或者尝试先导入 NumPy 库再加载其他依赖项[^2]。 #### 数据类型冲突引发的运行时异常针对 “RuntimeError: expected scalar type Half but found Float”的情况，这通常是由于混合精度计算配置失误造成的。确保模型输入的数据格式一致非常重要；要么全部采用半精度浮点数 (FP16)，要么保持全精度浮点数 (FP32)[^3]。可以在训练脚本中通过适当修改 PyTorch 的 AMP 自动混合精度机制来进行修正。 ```python from torch.cuda.amp import GradScaler, autocast scaler = GradScaler() for data in dataloader: optimizer.zero_grad() with autocast(): outputs = model(inputs) loss = criterion(outputs, targets) scaler.scale(loss).backward() scaler.step(optimizer) scaler.update() ```