Linux服务器使用GPU技巧

东皇太一在此

已于 2023-11-05 23:27:04 修改

阅读量403

点赞数 1

分类专栏： Debug 文章标签： linux 运维服务器

于 2023-10-31 23:36:35 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44092088/article/details/134151292

版权

Debug 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

进行深度学习实验的时候用pytorch-gpu，经常要与GPU打交道；
所以经常遇到奇奇怪怪的问题；

查看GPU占用情况

watch -n 10 nvidia-smi
nvidia-smi

在这里插入图片描述

杀死进程

kill PID

使用技巧

指定在哪张GPU上运行

有两种方法，建议用第二种

1. cuda() , torch.cuda.set_device()

在代码内部指定；

model.cuda(1)

2. os.environ[“CUDA_VISIBLE_DEVICES”]

在程序前面写如下语句：

os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"
os.environ["CUDA_VISIBLE_DEVICES"] = "2, 3"

此时系统会只调用原来的2, 3卡，并重新编号成0, 1，所以你在后面再调用cuda:0实际上在用原来的2卡了；（官网上也建议用这种方法）

查看变量在哪个设备上

查看model在哪张卡上：

if torch.cuda.is_available():
    # 获取当前模型所在的设备
    device = next(model.parameters()).device
    print("Model is on device:", device)
else:
    print("Model is on CPU")

torch.nn.DataParallel()

CLASStorch.nn.DataParallel(module, device_ids=None, output_device=None, dim=0)

在这里插入图片描述
可以看得到第一张卡用的多一些，这是因为虽然是并行，但是在做output_loss的时候默认是在第一张卡上跑的；参考[1]

Debug

1. RuntimeError: CUDA out of memory.

RuntimeError: CUDA out of memory. Tried to allocate 392.00 MiB (GPU 0; 7.80 GiB total capacity; 6.48 GiB already allocated; 131.88 MiB free; 6.71 GiB reserved in total by PyTorch)

之所以会爆是因为·torch.nn.DataParallel()`上述原因；

参考

[1]Pytorch的nn.DataParallel

东皇太一在此

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Linux服务器使用GPU技巧

进行深度学习实验的时候用pytorch-gpu，经常要与GPU打交道；所以经常遇到奇奇怪怪的问题；
复制链接

扫一扫

专栏目录

东皇太一在此 CSDN认证博客专家 CSDN认证企业博客

码龄5年

113: 原创

10万+: 周排名

1万+: 总排名

8万+: 访问

: 等级

1643: 积分

130: 粉丝

315: 获赞

36: 评论

389: 收藏

私信

关注

热门文章

分类专栏

最新评论

在华为手机上玩OPPO游戏
m0_74010504: 安装的时候，解析出错
[谜题]海盗分金-逆向思维
2301_82099998: 之后呢，对P203来说就麻烦了，需要得到102张票，除去100块金子收买的100人和自己，还需要一票，可是这个时候是不会得到的，因为P201和P202并没有得到好处（假设收买的人在P1~P200中），非常高兴看着他跳进海里喂鱼。那么P202就一定挂掉了。应该是p203一定挂掉了，是笔误吗？
Pytorch-gpu环境篇
白话机器学习: 博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，期待博主持续带来更多好文
[debug]libiomp5md.dll 被占用？逗我玩呢，明明第一次运行
CSDN-Ada助手: 如何进行前端SEO优化？
[课本]正规式转NFA,NFA转换为DFA以及DFA化简
追随远方的某R: 虽然化简到最后的确应该把终结集分为三个，但是这里第一次分解的时候根本没按照贪心去做，不对吧。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。