所有的伟大,源于一个勇敢的开始!
0.参考文献
Ubuntu 20.04 - RTX3090 - GPU has fallen off the bus
显卡温度问题 nvidiatemp.log
Linux下显卡掉卡
1.问题描述
Pycharm-common跑深度学习模型,频繁掉显卡。
kernel: [ 1949.633717] NVRM: GPU at PCI:0000:05:00: GPU-eb46d0be-2a4b-3702-4bb6-2a60cb56033e
kernel: [ 1949.633727] NVRM: Xid (PCI:0000:05:00): 79, pid='<unknown>', name=<unknown>, GPU has fallen off the bus.
kernel: [ 1949.633734] NVRM: GPU 0000:05:00.0: GPU has fallen off the bus.
2.解决问题 ;
a)排除功率不足问题,采用以下代码锁定功率
nvidia-smi -pl 250
问题没有解决
b)排除overheating引发的显卡过热保护问题
S 终端打开显卡温度log
nvidia-smi -q -l 2 -d TEMPERATURE -f nvidiatemp.log
结果显示如下
上图显示显卡并未存在过热现象。
c)永久保持NVIDIA 驱动程序加载状态
分析问题:通过查看/var/log/syslog文件中相关部分内容(如下图所示),发现程序在应用显卡之前存在调用nvidia驱动的动作,结合Linux下显卡掉卡 博主描述,得出结论:应用显卡程序存在频繁调用nvidia driver的情况。
因此,基于以上分析,在终端采用如下指令永久保持NVIDIA 驱动程序加载状态,解决问题。
nvidia-smi -pm 1
优化前:
优化后
3.总结
通过采用永久保持NVIDIA 驱动程序加载状态,成功解决Ubuntu20.04 掉显卡、无信号输出问题。