pytorch在多显卡下运行一定占用少部分cuda0的解决方法

最新推荐文章于 2025-02-15 12:58:37 发布

模糊包

最新推荐文章于 2025-02-15 12:58:37 发布

阅读量1.9k

点赞数 2

分类专栏： pytorch 文章标签： pytorch python 深度学习

注意转载出处～蟹蟹哟

本文链接：https://blog.csdn.net/xinjieyuan/article/details/128506009

版权

pytorch 专栏收录该内容

19 篇文章

订阅专栏

本文介绍了在拥有两块显卡的环境下，如何通过设置CUDA_VISIBLE_DEVICES变量确保代码仅在CUDA1上运行，同时解决了CUDA0显存不足导致的运行问题。通过设置CUDA_VISIBLE_DEVICES=1，限制程序只使用第二张显卡，并在代码中将设备设置为'cuda:0'。然而，即使在CUDA0未被主动使用时，它仍会被占用约2GB显存。因此，有效管理GPU资源对于高性能计算至关重要。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

情况

有两个显卡，但是指定运行在cuda1上时候，一定会占用cuda0显卡大约2GB显存。当cuda0在正常运行，没有显存时候，运行代码在cuda1上时候，会因为第一个卡显存不够跑不起来。

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 510.85.02    Driver Version: 510.85.02    CUDA Version: 11.6     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVIDIA TITAN Xp     Off  | 00000000:27:00.0  On |                  N/A |
| 29%   42C    P5    23W / 250W |    548MiB / 12288MiB |      1%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
|   1  NVIDIA GeForce ...  Off  | 00000000:28:00.0 Off |                  N/A |
| 21%   45C    P2    63W / 130W |   4600MiB /  6144MiB |     70%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

解决方法

运行代码时候

CUDA_VISIBLE_DEVICES=1 python run.py

然后在代码中，注意设置cuda:0

device = torch.device('cuda:0')

解释

CUDA_VISIBLE_DEVICES=1代表了电脑只有GPU FAN = 1的这个第二张显卡，程序只“看得见”GPU FAN = 1这块显卡。
torch.device('cuda:0')，因为只有第二张显卡了，所以它变成了下标是0的显卡。即：GPU FAN = 1显卡在程序的眼里就变成了第0块显卡