【nvidia-smi】Failed to initialize NVML: Driver/library version mismatch解决方法(不用重启)

目录

参考链接

一、项目场景

二、问题描述

三、原因分析:

四、解决方案:

五、后续解决

后续解决方案1

后续解决方案2


参考链接

【nvidia-smi】Failed to initialize NVML: Driver/library version mismatch解决方法(不用重启)

Failed to initialize NVML: Driver/library version mismatch

一、项目场景

在带有GPU的linux服务器上跑代码,cuda昨天还能好好的to(device),今天就不行了。执行 "nvidia-smi",提示Failed to initialize NVML: Driver/library version mismatch。 因为这个原因,导致我们无法使用GPU,从而无法进行深度学习等相关的任务。 另外,因为是实验室的服务器,虽然网上好多人都说,重启 `reboot`指令可以解决问题,但是因为服务器是实验室的,我们不能进行重启。 所以我找到了一种不重启,解决这个问题的方法。

二、问题描述

系统: Ubuntu20.04
问题:昨天跑代码,cuda还能好好的to(device),今天就不行了。输出torch.cuda.is_available()显示False,运行代码出现以下错误:

RuntimeError: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 804: forward compatibility was attempted on non supported HW

在终端输入nvidia-smi出现了以下错误

Failed to initialize NVML: Driver/library version mismatch

即显卡的驱动和内核版本不匹配
导致问题的原因:我之前没有进行任何和驱动有关的操作,所以导致该问题的原因应该是系统自动更新驱动,导致了版本不匹配的问题,非人为因素。

接下来我们看下具体版本冲突情况

1、查看驱动的版本:

dpkg -l | grep nvidia

 我们看到驱动的版本是525.147.05

2. 查看内核的版本

cat /proc/driver/nvidia/version

我们看到内核的版本是525.125.06 

3.查看日志

cat /var/log/dpkg.log |grep nvidia

 可以看到显卡驱动自动进行更新

三、原因分析:

由上面的分析,我们知道导致问题的原因是:
Ubuntu显卡驱动自动更新,导致更新后的驱动程序和系统正在使用的内核程序版本不一致了。所以解决问题的思路就是让其版本一致即可。一种方法是重新启动服务器,这样内核会重新加载对应升级后的驱动版本作为内核版本,本文章介绍不用重启的方法。

四、解决方案:

总体的思路分为两步:

  1. 退出当前内核使用的显卡模块
  2. 重新加载升级后版本的显卡驱动作为我们的内核模块

指令

sudo rmmod nvidia
sudo nvidia-smi   #nvidia-smi发现没有kernel mod的时候,会自动装载

如果用户正在使用到nvidia的内核,则执行sudo rmmod nvidia指令的时候,会提示如下错误


$ sudo rmmod nvidia
rmmod: ERROR: Module nvidia is in use by: nvidia_modeset nvidia_uvm

 查看nvidia模块使用情况


$lsmod | grep nvidia
nvidia_uvm            647168  0
nvidia_drm             53248  0
nvidia_modeset        790528  1 nvidia_drm
nvidia              12144640  152 nvidia_modeset,nvidia_uvm            12144640  152 nvidia_modeset,nvidia_uvm

 这就需要我们来手动地关闭nvidia_modsetnvidia_uvm服务。
查看所有的nvidia相关的进程

sudo lsof -n -w  /dev/nvidia*

然后,我们通过kill -9 PID 终止掉和nvidia_uvm,nvidia_modeset有关的进程。然后再重新执行如下的指令

sudo rmmod nvidia
sudo nvidia-smi   #nvidia-smi发现没有kernel mod的时候,会自动装载

最后,正常情况下问题就解决了。
如果还没有解决,通过如下指令终止nvidia的相关服务

sudo rmmod nvidia_uvm
sudo rmmod nvidia_drm
sudo rmmod nvidia_modeset
sudo rmmod nvidia

再执行

sudo rmmod nvidia
sudo nvidia-smi   #nvidia-smi发现没有kernel mod的时候,会自动装载

五、后续解决

由于是系统驱动更新导致出现的问题,那么就有可能再次出现这样的问题。应该如何解决呢?

后续解决方案1

停止nvidia更新
具体可参考
Failed to initialize NVML: Driver/library version mismatch解决方案

后续解决方案2

找到是哪个程序更新的显卡驱动,停止该程序的更新
具体步骤参考
Failed to initialize NVML: Driver/library version mismatch

  • 6
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
当使用nvidia-smi命令时,出现"Failed to initialize NVML: Driver/library version mismatch"错误,这意味着您的显卡驱动与内核版本不匹配。该错误通常发生在系统自动更新了显卡驱动程序的情况下,而没有及时同步更新内核。这是一个非人为因素导致的问题。 为了解决这个问题,有一种方法可以尝试,而不需要服务器。您可以通过卸载现有的NVIDIA驱动程序并新安装匹配的驱动程序来解决版本不匹配的问题。以下是详细步骤: 1. 首先,您需要确定您正在使用的驱动程序的版本。使用以下命令检查已安装的NVIDIA驱动程序版本: ``` nvidia-smi ``` 2. 然后,根据您的驱动程序版本,访问NVIDIA官方网站(https://www.nvidia.com/drivers)下载相应的驱动程序,确保它与您的内核版本兼容。 3. 在下载并安装驱动程序之前,您需要通过卸载已安装的驱动程序来清理系统。使用以下命令卸载驱动程序: ``` sudo apt purge nvidia* ``` 4. 安装新的驱动程序。您可以使用以下命令进行安装: ``` sudo sh NVIDIA-Linux-x86_64-xxx.xx.run ``` 其中“NVIDIA-Linux-x86_64-xxx.xx.run”是您下载的驱动程序文件的名称。 5. 安装完成后,动系统以使更改生效。 通过执行以上步骤,您应该能够解决"Failed to initialize NVML: Driver/library version mismatch"错误,并使nvidia-smi命令正常工作。请确保下载和安装适用于您的驱动程序版本和内核版本的正确驱动程序。 此外,您还可以使用以下命令来查看nvidia模块的使用情况: ``` lsmod | grep nvidia ``` 这将显示与nvidia相关的模块列表,以确认驱动程序是否正确加载。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [【nvidia-smiFailed to initialize NVML: Driver/library version mismatch解决方法(不用)](https://blog.csdn.net/qq_48081868/article/details/122349627)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值