目录
参考链接
【nvidia-smi】Failed to initialize NVML: Driver/library version mismatch解决方法(不用重启)
Failed to initialize NVML: Driver/library version mismatch
一、项目场景
在带有GPU的linux服务器上跑代码,cuda昨天还能好好的to(device),今天就不行了。执行 "nvidia-smi",提示Failed to initialize NVML: Driver/library version mismatch。 因为这个原因,导致我们无法使用GPU,从而无法进行深度学习等相关的任务。 另外,因为是实验室的服务器,虽然网上好多人都说,重启 `reboot`指令可以解决问题,但是因为服务器是实验室的,我们不能进行重启。 所以我找到了一种不重启,解决这个问题的方法。
二、问题描述
系统: Ubuntu20.04
问题:昨天跑代码,cuda还能好好的to(device),今天就不行了。输出torch.cuda.is_available()显示False,运行代码出现以下错误:
RuntimeError: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 804: forward compatibility was attempted on non supported HW
在终端输入nvidia-smi出现了以下错误
Failed to initialize NVML: Driver/library version mismatch
即显卡的驱动和内核版本不匹配
导致问题的原因:我之前没有进行任何和驱动有关的操作,所以导致该问题的原因应该是系统自动更新驱动,导致了版本不匹配的问题,非人为因素。
接下来我们看下具体版本冲突情况
1、查看驱动的版本:
dpkg -l | grep nvidia
我们看到驱动的版本是525.147.05
2. 查看内核的版本
cat /proc/driver/nvidia/version
我们看到内核的版本是525.125.06
3.查看日志
cat /var/log/dpkg.log |grep nvidia
可以看到显卡驱动自动进行更新了
三、原因分析:
由上面的分析,我们知道导致问题的原因是:
Ubuntu显卡驱动自动更新,导致更新后的驱动程序和系统正在使用的内核程序版本不一致了。所以解决问题的思路就是让其版本一致即可。一种方法是重新启动服务器,这样内核会重新加载对应升级后的驱动版本作为内核版本,本文章介绍不用重启的方法。
四、解决方案:
总体的思路分为两步:
- 退出当前内核使用的显卡模块
- 重新加载升级后版本的显卡驱动作为我们的内核模块
指令
sudo rmmod nvidia
sudo nvidia-smi #nvidia-smi发现没有kernel mod的时候,会自动装载
如果用户正在使用到nvidia的内核,则执行sudo rmmod nvidia
指令的时候,会提示如下错误
$ sudo rmmod nvidia
rmmod: ERROR: Module nvidia is in use by: nvidia_modeset nvidia_uvm
查看nvidia模块使用情况
$lsmod | grep nvidia
nvidia_uvm 647168 0
nvidia_drm 53248 0
nvidia_modeset 790528 1 nvidia_drm
nvidia 12144640 152 nvidia_modeset,nvidia_uvm 12144640 152 nvidia_modeset,nvidia_uvm
这就需要我们来手动地关闭nvidia_modset
和nvidia_uvm
服务。
查看所有的nvidia相关的进程
sudo lsof -n -w /dev/nvidia*
然后,我们通过kill -9 PID 终止掉和nvidia_uvm,nvidia_modeset有关的进程。然后再重新执行如下的指令
sudo rmmod nvidia
sudo nvidia-smi #nvidia-smi发现没有kernel mod的时候,会自动装载
最后,正常情况下问题就解决了。
如果还没有解决,通过如下指令终止nvidia的相关服务
sudo rmmod nvidia_uvm
sudo rmmod nvidia_drm
sudo rmmod nvidia_modeset
sudo rmmod nvidia
再执行
sudo rmmod nvidia
sudo nvidia-smi #nvidia-smi发现没有kernel mod的时候,会自动装载
五、后续解决
由于是系统驱动更新导致出现的问题,那么就有可能再次出现这样的问题。应该如何解决呢?
后续解决方案1
停止nvidia更新
具体可参考
Failed to initialize NVML: Driver/library version mismatch解决方案。
后续解决方案2
找到是哪个程序更新的显卡驱动,停止该程序的更新
具体步骤参考
Failed to initialize NVML: Driver/library version mismatch。