指定GPU设备号

最新推荐文章于 2024-07-26 17:23:36 发布

LuYJ35

最新推荐文章于 2024-07-26 17:23:36 发布

阅读量5.9k

点赞数 16

分类专栏：杂七杂八文章标签： python pytorch gpu

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43993244/article/details/113844758

版权

杂七杂八专栏收录该内容

5 篇文章 1 订阅

订阅专栏

指定GPU设备号

记录自己在实验室服务器上运行程序“指定gpu设备号”时的一些总结，和踩过的一些坑。

4种方法

1. 使用os指定

 import os
 os.environ['CUDA_VISIBLE_DEVICES'] = '0'

注意：这两行代码一定要放在所有代码之前，尤其要放在“import torch”之前（原因可以向下查看“附录”，或者自己在命令行尝试几种不同的指定方法）

2. 在命令行指定

CUDA_VISIBLE_DEVICES=x python  xxx.py

3. 使用torch指定

import torch
torch.cuda.set_device(0)

4. 在指定device时，同时指定gpu设备号

device = torch.device('cuda:1') if torch.cuda.is_available() else torch.device('cpu')

一些查看当前设备信息的torch代码

1. cuda是否可用

torch.cuda.is_available()

2. 返回gpu数量

torch.cuda.device_count()

3. 返回gpu名字

torch.cuda.get_device_name(0)

4. 返回当前设备索引

torch.cuda.current_device()

遇到的一些问题

1. 同时使用了多种方式指定，既使用os指定，后面又用torch来set？？？

最好只使用一种方式设定,不要同时使用多种方式。 原因：

比如：
使用os.environ[‘CUDA_VISIBLE_DEVICES’]是设定程序对哪几张卡可视，一般设定成功之后，接下来程序中任何有关卡号的指定都是相对的。

例如：os.environ['CUDA_VISIBLE_DEVICES'] = '1,2,3'，生效之后，再设置torch.cuda.set_device(0)，此时pytorch将会使用1号cuda.

其他类似…

2. 设置了在某卡上运行，但是无效（比如设置了在“1”号卡上运行，使用“nvidia-smi”查看，结果发现还是在“0”号卡上运行）

解决方法：

（1）如果使用os方式设置，首先检查自己的os语句位置是否放在了最前面。

（2）使用torch.cuda.get_device_name(id)语句，打印出正在使用的gpu设备名字。（ps：你以为的设备号可能不是真的设备号）

例如：

服务器上有一张V100和一张P100的卡，使用nvidia-smi，发现0号设备有人在用，1号设备空闲。
此处看到1号设备（V100）空闲
此处看到1号设备空闲，因此将设备号设置为1号。再次使用nvidia-smi查看，发现自己跑的程序也运行在0号上？？？？

使用torch.cuda.get_device_name(id)打印出设备名称：（也可以直接在程序中打印出来，看看此时程序究竟是在哪一张卡上跑）
在这里插入图片描述
此处发现0号设备才是V100，1号设备是P100。于是，将设备号设置为0号，此时查看nvidia-smi，发现自己的程序已正确地在1号设备上跑。

附录

在命令行做的一些小实验：

（1）先使用os指定，再使用torch获取

使用python命令进入python命令行
在这里插入图片描述

可以看到，指定完os的可见设备之后，再使用torch获取，只能检测到1个设备。

（2）先import torch, 后指定os
在这里插入图片描述
此处可以看到，指定前torch可以检测到2个设备；指定后torch还是能检测到两个设备。

参考博文：

[1] 啥？你又抢了别人的板子 – os.environ[‘CUDA_VISIBLE_DEVICES‘]指定GPU无法生效解决方案

[2]pytorch中查看gpu信息

关注

16
点赞
踩
83

收藏

觉得还不错? 一键收藏
2
评论
指定GPU设备号

@[TOC]指定GPU设备号指定GPU设备号记录自己在实验室服务器上运行程序“指定gpu设备号”时的一些总结，和踩过的一些坑。4种方法1. 使用os指定 import os os.environ['CUDA_VISIBLE_DEVICES'] = '0'注意：这两行代码一定要放在所有代码之前，尤其要放在“import torch”之前2. 在命令行指定CUDA_VISIBLE_DEVICES=x python xxx.py3. 使用torch指定import torchtorc
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。