Pytorch采坑记录：DDP 损失和精度比 DP 差，多卡GPU比单卡GPU效果差

就只有一∞点难

已于 2023-12-21 22:40:48 修改

阅读量2.6k

点赞数 20

文章标签： pytorch 人工智能 python

于 2023-12-21 20:50:46 首次发布

本文链接：https://blog.csdn.net/weixin_45667052/article/details/135139791

版权

结论：调大学习率或者调小多卡GPU的batch_size

转换DDP模型后模型的整体学习率和batch_size都要变。

当前配置：：1GPU：学习率=0.1，batch_size=64
如果8GPU还按之前1GPU配置：8GPU：学习率=0.1，batch_size=64

那么此时对于8GPU而言，效果几乎等于：：1GPU：学习率=0.1，batch_size=64 * 8=512

这种8GPU情况下，batch_size等效变大，效果就差了，参考Goyal et al

解决方法是调大学习率或者调小多卡GPU的batch_size

比如上面调大学习率改为 8GPU：学习率=0.1 * 8=0.8，batch_size=64 或 学习率=0.1 * √8 =√8 ，batch_size=64
或者调小batch_size 8GPU：学习率=0.1，batch_size=8

参考：

https://github.com/Lightning-AI/pytorch-lightning/discussions/3706
https://arxiv.org/pdf/1706.02677.pdf

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

就只有一∞点难

关注关注

20
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

分布式训练 - 单机多卡（DP和DDP）

love1005lin的博客

05-04

1万+

起初为调用大规模的模型训练，单卡GPU是不够使用的，需要借用服务器的多GPU使用。就会涉及到单机多卡，多机多卡的使用。在这里记录一下使用的方式和踩过的一些坑。文中若有不足，请多多指正。由于分布式的内容较多，笔者准备分几篇来讲一次下深度学习的分布式训练，深度学习的框架使用的是Pytorch框架。 ----1.分布式训练的理论基础 ----2.GPU训练 ----3.单机多卡的使用 ----4.多机多卡的使用在GPU训练文章中我们已经了解到了多GPU的训练，最简单的是单机多卡操作torch.nn.DataP

PyTorch训练（三）：DDP（DistributedDataParallel）【“单机多卡”、“多机多卡”分布式训练模式】【支持混合精度（fp16/fp32）】【只将数据并行，模型大于显卡则不行】

u013250861的博客

05-10

1728

一、概述我们知道 PyTorch 本身对于单机多卡提供了两种实现方式 DataParallel（DP）：Parameter Server模式，一张卡位reducer，实现也超级简单，一行代码。 DistributedDataParallel（DDP）：All-Reduce模式，本意是用来分布式训练，但是也可用于单机多卡。 DataParallel（DP）是基于Parameter server的算法，实现比较简单，只需在原单机单卡代码的基础上增加一行： gpu_ids = [0, 2, 3] mode.

参与评论您还未登录，请先登录后发表或查看评论

pytorch DistributedDataParallel 多卡训练结果变差的问题分析

哈哈哈博客

04-19

3595

DDP 数据shuffle 的设置使用DDP要给dataloader传入sampler参数（torch.utils.data.distributed.DistributedSampler(dataset, num_replicas=None, rank=None, shuffle=True, seed=0, drop_last=False)）。默认shuffle=True，但按照pytorch DistributedSampler的实现： def __iter__(self) -> It

为何你的多卡4090比单卡4090还慢

最新发布

顺其自然~专栏

04-11

132

RTX4090是很多开发者首选，随着48G的全面放开，相信在未来一段时间4090依然是主流。但是很多朋友拿到自己的大宝贝跑起来才发现多卡4090比单卡居然还慢！为何出现这种情况？第一，请看你是不是被忽悠买到了酷睿i9+双卡4090的主机，酷睿处理器的PCIE总线是20条，主板上2个所谓x16的PCIE插槽实际上运行在x8的带宽，有些甚至就跑在x16+x4的带宽，性能被严重限制。第二，4090没有nvlink，如果是模型训练场景这个就很吃亏，所以像A40 / A6000这种卡出现疯狂的涨价，这些卡性能不到40

【SyncBN踩坑】DDP训练efficientnet精度异常问题

picturelife的博客

09-21

1269

DDP下同步BN层导致efficientnet训练精度异常？

设计模式总结

每一个不曾起舞的日子，都是对人生的辜负。

06-22

614

Iterator模式

单卡训练模型与多卡训练模型的不同（YOLOv7）

weixin_48743676的博客

02-24

1553

迁移学习的多卡训练问题

在Ascend上，单卡精度可以很好，但多卡精度很差

weixin_45666880的博客

08-15

1071

1、单卡训练后，精度很好，但是跑分布式(数据并行)精度就很差，而且卡越多精度越低，使用的优化器为Adam，请问从单卡到多卡，从哪些方便调整可是多卡达到单卡精度。或者使用大batch更新优化的优化器例如lamb等。一般情况下可以尝试调大learning rate。...

PyTorch训练（二）：DP（DataParallel）【“单机多卡”训练模式】【简单方便、速度慢、GPU 负载不均衡】【不推荐使用DP，推荐使用DDP】[

u013250861的博客

05-20

1132

PyTorch数据并行（DP/DDP）浅析

强化学习曾小健

08-06

1151

与每个step一个batch数据相比，数据并行是指每个step用更多的数据多个batch）进行计算——即多个batch的数据并行进行前向计算。既然是并行，那么就涉及到多张卡一起计算。单卡和多卡训练过程如下图[1]各卡分别计算损失和梯度，即图中红线部分；所以梯度整合到主device，即图中蓝线部分；主device进行参数更新，并将新模型拷贝到其他device上，即图中绿线部分。左图是单GPU训练；右图是多GPU训练的一个变体。

从零搭建Pytorch模型教程（七）单机多卡和多机多卡训练

weixin_53880910的博客

07-25

1761

本文主要介绍单机多卡训练和多机多卡训练的实现方法和一些注意事项。其中单机多卡训练介绍两种实现方式，一种是DP方式，一种是DDP方式。多机多卡训练主要介绍两种实现方式，一种是通过horovod库，一种是DDP方式。

科研第五步：如何使用DDP分布式多GPU并行跑pytorch深度学习训练

fs1341825137的博客

03-04

6307

DDP分布式多GPU并行跑pytorch深度学习模型多卡并行代码模板文章目录DDP分布式多GPU并行跑pytorch深度学习模型前言一、DDP怎么用二、使用步骤1.引入库2.读入数据总结前言 PyTorch的数据并行相对于TensorFlow而言，要简单的多，主要分成两个API： DataParallel（DP）：Parameter Server模式，一张卡为reducer，实现也超级简单，一行代码。 DistributedDataParallel（DDP）：All-Reduce模式，本意是用来分布式

分布式训练与单卡训练精度存在差异的几个原因

qq_43183860的博客

04-01

3506

一个主要因素是Batch norm。Batch norm依赖当前batch来计算均值和方差，而主流框架（tf，pytorch）的实现是在当前卡上计算这些统计量。显然单个卡上计算出来的统计量是不能代替整个并行batch的结果。考虑一个极端情形，每张卡batch size=1，这时候单卡的方差为0，而整个并行batch的方差不为0。所以单个sample的前向计算结果不一样，最后计算出来的梯度也不一样。深度学习中多GPU训练是否等价于增大batch size？ - 小朱的回答 - 知乎 NLP 中经常有一..

单机单卡，单机多卡，多机多卡训练代码

weixin_41012399的博客

12-12

3105

pytorch并行后，假设batchsize设置为64，表示每张并行使用的GPU都使用batchsize=64来计算（单张卡使用时，使用batchsize=64比较合适时，多张卡并行时，batchsize仍为64比较合适，而不是64*并行卡数）。后面还可以用torch.nn.DataParallel(model, device_ids=[1, 2])进行指定，但是必须包含set_device(1)指定的device:1的设备，缺点是仍然会存在占用一些device:0的gpu内存；

多GPU并行训练和单GPU训练网络精度对比

weixin_44523062的博客

11-07

2298

文章目录实验配置1 单2080s 86.4 / 94.42 单2080 86.0 / 94.53 利用torch的parallel两张并行 85.0 /93.7 实验配置一张2080s, 一张2080 1 单2080s 86.4 / 94.4 re-ranking 2 单2080 86.0 / 94.5 3 利用torch的parallel两张并行 85.0 /93.7 ...

基于pytorch多GPU单机多卡训练实践

热门推荐

HUSTHY的博客

09-02

1万+

基于pytorch多GPU模型训练实践

torch训练（单卡，单机多卡，多机多卡）

JoeyChen1219的博客

04-19

1137

pytorch单卡训练，单机多卡DP训练，多机多卡DDP训练

PaddlePaddle把单卡训练改为多卡训练

xiangxianghehe的博客

03-24

4573

环境 Paddle>=1.2 cuda9 cudnn7 Python3.5 train关键代码段 def train(model): predict,loss,iou = create_model(model=model) optimizer = fluid.optimizer.Adam(learning_rate=1e-4) optimizer.minimize...

大模型训练策略：单卡or多卡

Chrsitina_S的博客

11-04

1358

大模型训练策略

差比和算法

03-16

### 差比和算法的概念及实现差比和算法是一种用于数据分析和信号处理的技术，主要用于评估数据序列中的变化率以及稳定性。虽然该算法并未直接提及于所提供的引用中，但从 Allan 方差计算方法[^1] 和其他统计分析手段来看，差比和算法的核心思想与其有一定的相似之处。 #### 1. **概念** 差比和算法主要关注的是数据序列的变化趋势及其比例关系。通过对相邻数据点之间的差异进行加权求和，并进一步比较这些差异的比例关系，从而得出关于数据稳定性的结论。这种算法通常被应用于时间序列分析、噪声特性研究等领域。 #### 2. **计算方法** 差比和算法的具体计算流程如下： - 首先定义一个长度为 \( N \) 的数据序列 \( X = [x_1, x_2, ..., x_N] \)。 - 对于每一对连续的数据点 \( (x_i, x_{i+k}) \)，计算它们的绝对差值： \[ d_k(i) = |x_{i+k} - x_i| \] - 接着对所有可能的间隔 \( k \) 进行累加操作，形成总差值函数： \[ S(k) = \frac{1}{N-k} \sum_{i=1}^{N-k} d_k(i) \] - 最终通过对比不同 \( k \) 值下的 \( S(k) \)，可以得到数据随时间变化的趋势曲线。这一过程类似于 Allan 方差中的分块和平滑处理步骤，但更侧重于直接衡量原始数据间的相对距离而非二次平方误差。 #### 3. **实现代码** 以下是 Python 中的一种简单实现方式： ```python def diff_ratio_sum(data): n = len(data) results = [] for k in range(1, n): sum_diff = 0 for i in range(n - k): sum_diff += abs(data[i + k] - data[i]) s_k = sum_diff / (n - k) results.append(s_k) return results # 测试用例 data_sequence = [1, 2, 4, 7, 11, 16] output = diff_ratio_sum(data_sequence) print(output) ``` 上述代码实现了基本的差比和运算逻辑，其中 `diff_ratio_sum` 函数接收一组数值作为输入并返回对应的不同步长上的累积差值列表。 #### 4. **用途** 差比和算法的主要应用场景包括但不限于以下几个方面： - 时间序列异常检测：识别出那些偏离正常波动范围的时间节点； - 数据质量评估：判断采集到的数据是否存在过多随机扰动或系统偏差； - 控制理论支持：辅助设计反馈控制系统参数调整策略；此外，结合朴素贝叶斯分类器[^2] 或者蒙特卡洛模拟技术[^3] ，还可以将其扩展至更加复杂的预测建模场景之中。 ---