Nvidia驱动卸载干净了,新驱动却还是安装不上?

(卸载干净后,驱动还是安装不上)

由于更新到 cuda11.1(驱动版本455.23)之后服务器分布式训练出现多个0MB进程,类似下图

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9bvIkS0h-1653487404877)(https://secure2.wostatic.cn/static/wCHMJJgjbgk3yiYKBdsSmU/image.png)]

准备卸载后重装,按照上述经历,卸载了驱动和cuda,为了偷懒想重新安装一个最新版的驱动,兼容各种cuda版本,但是在尝试各种卸载干净之后,也不输出nvidia相关文件了,也禁止了nouvea驱动,仍然安装失败,只能安装cuda11.1对应的驱动,百思不得其解,经过一下午的折腾,在单独安装510版本的驱动时,仔细看了一下提示: 如下内容,大意是说驱动安装失败的原因是还有进程在使用nvidia ,我突然想到之前为了4卡nvidia-smi命令卡顿的问题,开启了NVIDIA Persistence Daemon进程,正好在提示的问题中,赶紧查找了一下进程,果然nvidia还在使用,此时查看cat /proc/driver/nvidia/version 显示的驱动还是455.23

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RM5B19mM-1653487404878)(https://secure2.wostatic.cn/static/5JfvSxQhqWSGXnANADHFQP/image.png)]

**杀死nvidia-persiste 进程后,就没有其他进程再使用了,此时再次安装驱动一切顺利。**再次查看驱动版本

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Z8ikxLMZ-1653487404878)(https://secure2.wostatic.cn/static/4uff3QHJaz7P3m11R74e4h/image.png)]

已经成功安装为510版本。

此时运行程序,也不再显示0-MB进程,因此可能是之前驱动安装有问题。

驱动安装时报错内容

An NVIDIA kernel module ‘nvidia’ appears to already be loaded in your kernel.

This may be because it is in use (for example, by an X server, a CUDA program,

or the NVIDIA Persistence Daemon), but this may also happen if your kernel was

configured without support for module unloading. ** **Please be sure to exit any

programs that may be using the GPU(s) before attempting to upgrade your driver.

If no GPU-based programs are running, you know that your kernel supports module

unloading, and you still receive this message, then an error may have occurred

that has corrupted an NVIDIA kernel module’s usage count, for which the

simplest remedy is to reboot your computer.

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LMItEX3z-1653487404878)(https://secure2.wostatic.cn/static/wVLQpFFrAUDaNAhjoCvT7W/image.png)]

由于是多卡,因为nvidia-smi卡顿的原因,我开了NVIDIA Persistence Daemon,所以尝试关闭

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-K00HTdTZ-1653487404879)(https://secure2.wostatic.cn/static/coDTooKva1xRpjzTYzxaCL/image.png)]

提示查看var/log/nvidia-installer.log文件

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UXn6D6f1-1653487404879)(https://secure2.wostatic.cn/static/i6g1hz9CAGvnLcUsw5kxfD/image.png)]
所以,总结一下,nvidia驱动卸载后,可能仍然有一些进程在使用,需要关闭后再安装。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值