模型指定GPU遇到的问题

最新推荐文章于 2024-06-06 16:43:24 发布

xxxx_HeXi

最新推荐文章于 2024-06-06 16:43:24 发布

阅读量409

点赞数 1

文章标签：人工智能 python pytorch

本文链接：https://blog.csdn.net/xxxx_HeXi/article/details/129682722

版权

文章讲述了在将模型从多GPU运行模式转换为单GPU运行时遇到的问题及解决方案。首先，错误源于`CUDA_VISIBLE_DEVICES`环境变量设置不当，通过将其从0,1,2,3更改为1解决了第一个RuntimeError。然后，第二个RuntimeError是由于未调整batch_size，过大的batch_size在单卡环境下无法处理，减小batch_size后问题解决，模型成功运行。

摘要由CSDN通过智能技术生成

今天在修改模型的指定GPU中遇到的坑，主要原因是由于原本模型使用多卡运行，现在希望改成单卡运行遇到的问题。
原本的代码如下

import os
os.environ['CUDA_VISIBLE_DEVICES']='0,1,2,3'
device_ids = [0,1,2,3]
model = torch.nn.DataParallel(model, device_ids=device_ids)
model = model.cuda()

RuntimeError: module must have its parameters and buffers on device cuda:0 (device_ids[0]) but found
原因是由于直接将原来的0,1,2,3 修改为’1’
因为改为单卡运行后则不需要再使用DataParallel多卡运行，如果使用它则需要指定主卡，故修改代码为下面即可

import os
os.environ['CUDA_VISIBLE_DEVICES']='1'
model = model.cuda()

RuntimeError: Unable to find a valid cuDNN algorithm to run convolution
上述问题解决后又出现该问题，发现是由于没有修改batch_size导致，原本的多卡运行batch_size设置过大因此无法运行，将batch_size调小，成功运行