解决ddp多卡训练GPU:0显存占用比其他卡大的问题

最新推荐文章于 2023-12-21 20:50:46 发布

Acho6

最新推荐文章于 2023-12-21 20:50:46 发布

阅读量739

点赞数

文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/weixin_56759664/article/details/131923795

版权

1.torch.load()未指定map_location:

# 修改前, 默认使用GPU:0载入
checkpoint = torch.load("checkpoint.pth")
model.load_state_dict(checkpoint["state_dict"])

#修改后, 使用cpu载入
checkpoint = torch.load("checkpoint.pth", map_location='cpu')
model.load_state_dict(checkpoint["state_dict"])

2.将下面代码放在训练代码前，确保在进行分布式训练时，每个进程在初始化时都设置了正确的CUDA设备，并清除了CUDA缓存。

# Set the CUDA device based on local_rank
rank = int(os.environ.get("LOCAL_RANK", 0))
torch.cuda.set_device(rank)
torch.cuda.empty_cache()

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Acho6

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
解决ddp多卡训练GPU:0显存占用比其他卡大的问题

2.将下面代码放在训练代码前，确保在进行分布式训练时，每个进程在初始化时都设置了正确的CUDA设备，并清除了CUDA缓存。
复制链接

扫一扫

「分布式训练」+ DDP单机多卡并行指南 PPT

04-10

总的来说，DDP为单机多卡的分布式训练提供了一个高效、易用的解决方案。理解其工作原理和使用方法，对于优化深度学习模型的训练流程至关重要。通过熟练掌握DDP，开发者可以充分利用多GPU资源，加快模型收敛，为大型...

「分布式训练」+ DDP单机多卡并行指南

07-20

分布式训练是一种优化深度学习模型训练效率的技术，尤其在处理大规模数据和复杂模型时显得尤为重要。在PyTorch中，有几种主要的并行训练方式，其中最常用的包括Data Parallel (DP) 和 Distributed Data Parallel ...

参与评论您还未登录，请先登录后发表或查看评论

Pytorch使用DDP加载模型时出现多进程在GPU0上占用过多显存的问题

cax1165

07-19

5786

Pytorch使用DDP加载模型时出现多进程在GPU0上占用过多显存的问题，此问题可能导致GOU0在训练过程中爆显存。

pytorch 模型训练时多卡负载不均衡（GPU的0卡显存过高）解决办法（简单有效）

热门推荐

Lisen’s blog

05-14

2万+

本文主要解决pytorch在进行模型训练时出现GPU的0卡占用显存比其他卡要多的问题。如下图所示：本机GPU卡为TITAN RTX，显存24220M，batch_size = 9，用了三张卡。第0卡显存占用24207M，这时仅仅是刚开始运行，数据只是少量的移到显卡上，如果数据在多点，0卡的显存肯定撑爆。出现0卡显存更高的原因：网络在反向传播的时候，计算loss的梯度默认都在0卡上计算。因此会比其他显卡多用一些显存，具体多用多少，主要还要看网络的结构。因此，为了防止训练由于 out of memory

解决多卡加载预训练模型时，卡0总会比其他卡多占用显存，多卡占用显存不均

mumuximmmmmm的博客

09-07

2302

多卡训练卡0占用显存多，卡0占用显存多余其他卡

使用DistributedDataParallel(DDP)时遇到额外进程导致GPU0显存不均衡的问题

weixin_43333043的博客

05-22

892

可以看出，载入模型时，先被载入到cpu然后移动到对应设备，这里对应设备指的是GPU0，而通过指定参数map_location，可以使用对应设备进行载入。，查看显存占用，发现GPU0占用相较于其他GPU更高，并且每一个进程都在GPU上有占用，当显存较为紧张时，可能导致爆显存。然而，通过解决方法1，并未能解决我的问题。通过google，最终找到了解决该问题的方式。pytorch在load模型时，通过查看pytorch官方文档可以发现，方法，在未指定map_location时，

DDP额外进程显存占用

Hellowdolphins的博客

04-22

317

但是有时候这种方式可能并不能解决问题，此时可以尝试将find_unused_parameters设置为False，即。这里的rank就是你的GPU号。

PyTorch 多GPU使用torch.nn.DataParallel训练参数不一致问题

weixin_41496173的博客

08-18

4461

在多GPU训练时，遇到了下述的错误： 1. Expected tensor for argument #1 'input' to have the same device as tensor for argument #2 'weight'; but device 0 does not equal 1 2. RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cuda:1

Resnet实战：单机多卡DDP方式、混合精度训练

04-15

本例提取了植物幼苗数据集中的部分数据做数据集，数据集共有12种类别，模型使用最经典的resnet50，演示如何实现混合精度训练以及如何使用DDP的方式实现多卡并行训练。通过本文你和学到： 1、如何使用混合精度训练...

基于pytorch的单机多卡分布式训练源码

09-06

在PyTorch中，单机多卡分布式训练是一种优化深度学习模型训练效率的方法，它能够充分利用多GPU资源，加速模型的收敛过程。本教程将详细解释如何使用PyTorch实现单机多卡分布式训练，主要参考提供的源码文件`pytorch_...

DDP服务器React式：用于流星的DDP服务器

02-05

具有React式收集的DDP服务器DDP-Server-Reactive是基于nodejs的DDP服务器。用法// Create a server listening on the default port 3000var server = new DDPServer();// Create a reactive collection// All the ...

【DDP踩坑记录】在0卡上出现多个进程

Ll7_ll的博客

09-27

282

pytorch ddp 踩坑记录

PyTorch~单机多卡

whaosoft143ai的博客

01-01

2103

在 1.0 之后，官方终于对分布式的常用方法进行了封装，支持 all-reduce，broadcast，send 和 receive 等等。通过 MPI 实现 CPU 通信，通过 NCCL 实现 GPU 通信。官方也曾经提到用。whaosoft aiot http://143ai.com

pytorch训练，gpu利用率不稳定

stupid_miao的博客

09-10

5801

问题描述：单主机四gpu利用torch.nn.DataParallel进行多gpu的训练；gpu的内存占有率没问题，但使用率很低，很长一段时间在百分之零。问题原因：读取每个batch size的图像时，cpu读取时间较长。（batch_size = 1024, 设置DataLoader线程4、8、16、32的改善都不大，且pin_memory=true），开始的dataset为下面方式，显然每次读取时io的耗时比较长。于是，将图像全部读出（硬件支持…），然后再进行每次的变量赋值。 class myDa

深度学习训练时GPU利用率忽高忽低问题

05-27

1万+

gpu利用率经常在0-99%之间跳动，找了一圈原因，可能是以下几点： 1.数据预处理：CPU预处理太长，GPU空闲跟不上解决办法：可能是读数据或者数据预处理的时间过长，读数据部分可以尝试把全部或者部分数据放在内存，也可以放固态上。数据预处理部分有些变换是否可以固定，假如是图像数据，有些resize或者padding的操作是否可以离线处理好。适当调整dataloader读数据的线程数 pin_memory=4/8。 ...

Pytorch采坑记录：DDP 损失和精度比 DP 差，多卡GPU比单卡GPU效果差

最新发布

weixin_45667052的博客

12-21

1515

那么此时对于8GPU而言，效果几乎等于：：1GPU：学习率=0.1，batch_size=64 * 8=如果8GPU还按之前1GPU配置：8GPU：学习率=0.1，batch_size=这种8GPU情况下，batch_size等效变大，效果就差了，参考。转换DDP模型后模型的整体学习率和batch_size都要变。解决方法是调大学习率或者调小多卡GPU的batch_size。或者调小batch_size。比如上面调大学习率改为。

深度学习PyTorch，TensorFlow中GPU利用率较低，CPU利用率很低，且模型训练速度很慢的问题总结与分析 Pytorch 并行训练（DP， DDP）的原理和应用

qq_37983000的博客

11-20

517

深度学习PyTorch，TensorFlow中GPU利用率较低，CPU利用率很低，且模型训练速度很慢的问题总结与分析_是否龍磊磊真的一无所有的博客-CSDN博客

CUDA out of memory（然鹅明明还有空间）

联邦学习小白

09-16

1万+

模型跑完想再跑一遍的时候居然给我报“CUDA out of memory”，很明显，我的显卡虽然菜，但起码还是可以跑的，毕竟刚跑完，那就可能是python在运行完以后没有释放资源，导致GPU的内存满了。如果是这样的话，那解决的方法就很简单了，直接把进程杀死就行。首先在C:\Program Files\NVIDIA Corporation\NVSMI位置打开命令行，然后输入nvidia-smi（也可以用nvidia-smi.exe -l 1，每秒更新CUDA使用情况），显示当前gpu的使用情况如下：显

Pytorch 多卡并行训练教程（DDP）

fovever_的博客

01-01

5544

Pytorch 多卡并行训练教程（DDP），关于使用DDP进行多开并行训练网上有许多教程，而且很多对原理解析的也比较透彻，但是有时候看起来还是比较懵逼，再啃了许多相关的博客后，博主记录了一些自己对于使用torch.nn.DistributedDataParallel(DDP)进行单机多卡并行训练的一些体会，希望能对入门的小白有一定的帮助，不足之处也希望指出，大家一起交流学习。