(解决)Ubuntu20.04 下跑深度学习,掉显卡,无信号输出问题

所有的伟大,源于一个勇敢的开始!

0.参考文献
Ubuntu 20.04 - RTX3090 - GPU has fallen off the bus
显卡温度问题 nvidiatemp.log
Linux下显卡掉卡

1.问题描述

   Pycharm-common跑深度学习模型,频繁掉显卡。
kernel: [  1949.633717] NVRM: GPU at PCI:0000:05:00: GPU-eb46d0be-2a4b-3702-4bb6-2a60cb56033e
kernel: [ 1949.633727] NVRM: Xid (PCI:0000:05:00): 79, pid='<unknown>', name=<unknown>, GPU has fallen off the bus.
kernel: [ 1949.633734] NVRM: GPU 0000:05:00.0: GPU has fallen off the bus.

2.解决问题
a)排除功率不足问题,采用以下代码锁定功率

nvidia-smi -pl 250

问题没有解决
b)排除overheating引发的显卡过热保护问题

S 终端打开显卡温度log
nvidia-smi -q -l 2 -d TEMPERATURE -f nvidiatemp.log

结果显示如下
掉显卡瞬间温度结果
上图显示显卡并未存在过热现象。
c)永久保持NVIDIA 驱动程序加载状态
分析问题:通过查看/var/log/syslog文件中相关部分内容(如下图所示),发现程序在应用显卡之前存在调用nvidia驱动的动作,结合Linux下显卡掉卡 博主描述,得出结论:应用显卡程序存在频繁调用nvidia driver的情况。
syslog显卡异常内容
因此,基于以上分析,在终端采用如下指令永久保持NVIDIA 驱动程序加载状态,解决问题。

nvidia-smi -pm 1

优化前:
优化前
优化后
优化后
3.总结
通过采用永久保持NVIDIA 驱动程序加载状态,成功解决Ubuntu20.04 掉显卡、无信号输出问题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值