运维系列&AI系列&Lenovo-G双系统系列(前传-装之前搜索的):无法连接NVIDIA驱动:NVIDIA-SMI has failed because it couldn‘t communicat




无法连接NVIDIA驱动:NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver

NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver

重启服务器之后就出现连接不上NVIDIA驱动的情况。这个时候tensorflow还是可以运行的,但只是在用cpu跑。安装gpu版的TensorFlow时,也显示已安装。

nvidia-smi
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

我们在终端输入 nvcc -V 发现驱动也在。

在这里插入图片描述
这就很魔性了。。。查找了很多方法之后,发现下面这个最简便,只需要两步,而且还不用重启,哈哈。

step1:sudo apt-get install dkms
step2: sudo dkms install -m nvidia -v 410.79

再次输入nvidia-smi时,你熟悉的界面就会回来啦。
在这里插入图片描述

(虽然使用率显示为99%,但并不影响我们使用)

其中step2 中的410.79NVIDIA的版本号,当你不知道的时候,进入/usr/src目录中,可以看到里面有nvidia文件夹,后缀就是其版本号

cd /usr/src

在这里插入图片描述

OK,到此我们就轻松愉快的解决了这个问题。(Yeah!)

另:怎么查看TensorFlowgpu版本还是cpu版本

from tensorflow.python.client import device_lib
print(device_lib.list_local_devices())

底下评论

问题一:

太感谢你了啊啊啊啊啊啊啊啊啊啊啊啊。今天把学校服务其重启了一下,结果显示GPU驱动找不到了,太感谢你了!!!!!!!!!!!!!!!!!!我差点以为闯大祸了

其他人提问

我也闯大祸了……

提问者回答

我后来还是被发现了,哈哈哈。然后就再没有管理员权限了

其他人提问

我也,咋解决的啊

问题一:

感谢楼主,已解决。问题:重启后无法连接NVIDIA驱动。

其他人提问

您解决了吗

问题一:

楼主的方法好棒…终于不用痛苦的重装了,虽然不知道这是什么原理

问题一:

我上次错误直接换了内核,这次电脑重启又出现这个,这个有用!!!感谢

问题一:

我试了为啥不行

其他人提问

我试了也不行

其他人提问

can’t work

问题一:

厉害厉害,解决我的问题!就是不知道什么原因导致的

问题一:

感谢感谢,我也是重启了实验室服务器!!!!我也以为自己闯大祸了!!!!!!!!!!吓死我了!!!
太感谢了!!!!!!

其他人提问

大年初八 重启实验服务器 训练特别慢 原来是cpu在训 使用NVIDIA smi 竟然不行

问题一:

请问博主 开学重启服务器也这样 tf是在cpu下训的 请问是在putty这个终端输入那两行命令吗

问题一:

第二条命令时失败了,不行哎

其他人提问

现在你解决了吗,能否告知一下方法

其他人提问
cd /usr/src       ls    查看nvidia驱动版本

问题一:

两个命令都成功执行了,但是没用啊…
src下的nvidia文件夹是叫nvidia-430-430.26,所以我第二个命令输的是“sudo dkms install -m nvidia -v 430-430.26”(输 “sudo dkms install -m nvidia -v 430.26”则会报错“Directory: /usr/src/nvidia-430.26 does not exist.”),执行后显示DKMS: build completed. ...... DKMS: install completed.
但是nvidia-smi还是显示找不到驱动,torch.cuda.is_available()也是False

提问者回答

后来发现第二种方法确实可行,但是有可能也需要重启(比如我的情况,重启服务器之后就正常了)

其他人提问

我也not exist ,重启也没用

提问者回答

not exist那是版本号输错了,不是没重启的问题

其他人提问

哦哦哦,好的,我去看看

其他人提问

你好,请问第二种办法是啥啊

问题一:

请问为啥我执行完step2后,就一直显示'make' -j32 NV_EXCLUDE_BUILD_MODULES='' KERNEL_UNAME=4.4.0-177-generic IGNORE_CC_MISMATCH='' modules............,省略号不停地在增加?

问题一:

老铁牛B,能有大佬给个解释和原因么

问题一:

没用呢,不知道是为什么,我是新安装了显卡驱动…

问题一:

请问有人碰到过显示Module nvidia/440.100 already installed on kernel 5.3.0-61-generic/x86_64,但还是不能用nvidia-smi的么

其他人提问

请问你解决了吗

提问者回答

我后来卸载驱动之后运行了sudo ubuntu-drivers autoinstall更新了驱动,然后重启解决的,希望对你有帮助

其他人提问

我也是这样,请问你的好了吗

问题一:

感谢楼主,本来准备卸载驱动,重新安装,想了下看看博文,这下又整好了😀

问题一:

楼主,我的第二条代码报错了

Error! Could not locate dkms.conf file.
File: /usr/src/nvidia-440.100/dkms.conf does not exist.

请问有什么解决办法吗

其他人提问

进入 /usr/src 里看一下NVIDIA的版本是什么,然后把 sudo dkms install -m nvidia -v xxx.xx.xx(把xxx.xx.xx替换成你文件夹里的那一个)

其他人提问
Error! Could not locate dkms.conf file.
File: /usr/src/nvidia-470.74/dkms.conf does not exist.

请问执行这条命令后这个报错有方法解决吗

其他人提问

就是这样做一样会这样报错

其他人提问

您好,我也出现了这个问题,您解决了吗?

问题一:

有用,ubuntu18.04要把gcc版本改回7.5,再进行上述做法

提问者回答

还不行的话,可以试试更换ubuntu的启动内核,换一个比离当前版本最近,低一点的内核版本来启动

问题一:

步骤2会报错:

‘Error! Bad return status for module build on kernel: 4.4.0-148-generic(x86_64)
其他人提问

xd,解决了吗

问题一:

第二条命令:

Kernel preparation unnecessary for this kernel. Skipping...

Building module:
cleaning build area...
unset ARCH; env NV_VERBOSE=1 'make' -j8 NV_EXCLUDE_BUILD_MODULES='' KERNEL_UNAME=5.4.0-62-generic IGNORE_XEN_PRESENCE=1 IGNORE_CC_MISMATCH=1 SYSSRC=/lib/modules/5.4.0-62-generic/build LD=/usr/bin/ld.bfd modules....(bad exit status: 2)
ERROR: Cannot create report: [Errno 17] File exists: '/var/crash/nvidia-kernel-source-415.0.crash'
Error! Bad return status for module build on kernel: 5.4.0-62-generic (x86_64)
Consult /var/lib/dkms/nvidia/415.27/build/make.log for more information.

请问接下来该如何解决呢?

其他人提问

xd 问题解决了吗

其他人回答

我也遇到这个问题了,试了好些,包括重装gcc与换版本等。后来我在ubuntu22的软件与更新中的附加程序那一块check,发现好像回到了自带了nouveau?我就在那里重新选了(或者是叫做重装驱动),装好重启就一切恢复正常了。

问题一:

方法正确 ,但是大家看看编译器gcc g++的设置,我之前降级到5,导致命令2报错,再升级到7,就可以了。

问题一:

第二个命令错误

Error! Could not find module source directory.
Directory: /usr/src/nvidia-460.32.03 does not exist
其他人提问

我也是这个问题,请问处理了吗?

问题一:

sudo ubuntu-drivers autoinstall

问题一:

你好,这个问题已经解决了。想问问以后还会出现这样的问题吗,比如说过一段时间又无法使用gpu

问题一:

你好 第二条失败了 电脑开不了 急

问题一:

本人经验,在做其他操作之前,可以重启试试

问题一:

ERROR (dkms apport): binary package for nvidia: 435.21 not found

问题一:

还有可能是GCC版本不符合导致 sudo apt-get install dkms时候有错误(对应的错误我没有保存下来)

其他人提问
ERROR (dkms apport): binary package for nvidia: 450.80.02 not found
Error! Bad return status for module build on kernel: 4.15.0-193-generic (x86_64)
Consult /var/lib/dkms/nvidia/450.80.02/build/make.log for more information.

问题一:

出现这个问题的可能原因是没有Disable掉Secure Boot(就是安装驱动时提示你Disable的东西),解决方法也很简单,在安装完驱动后,reboot时,在开机出现一个全蓝界面

时按任意键,选择第二项,也就是改变Secure Boot的状态,然后依据提示将它Disable掉,然后boot就好。

新装驱动如果出现问题的话,也可能是上述的原因。

提问者回答

nvidia-smi用不了也可能是内核更新的问题,进入新版本导致nvidia-smi不能工作,只要回到老的版本的内核即可。

其他人回答

按照你的方法成功了,感谢!!!

问题一:

nvcc正常,但是没有nvidia-版本号这个文件

其他人回答

我也是/usr/src/下面没有nvidia-版本号这个文件夹,请问这个问题你处理了吗?

其他人回答

去目录找,nvidia版本号都不一样的

其他人回答

我的jetson nano 2GB安装好镜像文件,配置好之后,也是这样,不知道是不是镜像文件里少显卡驱动

问题一:

Error! Could not locate dkms.conf file.
File: /usr/src/nvidia-510.85.02/dkms.conf does not exist.
其他人回答

我遇到这个问题重启就好了

其他人提问

重启好不了呢?

问题一:

有用,感谢!我这里不知道为什么重启之后 nvcc 也找不到了,但是按照方法一样解决了问题,能够重新使用 nvidia-smi。需要补充的是,版本号最后可能有 “.00”,需要严格按照 /usr/src 里的目录名填写命令

问题一:

nvcc -C为什么能表示显卡驱动还在?

问题一:

爱死博主 22.04表情包

问题一:

爱死23.09

问题一:

cd /usr/src找不到版本号杂办

问题一:

Kernel preparation unnecessary for this kernel. Skipping...

Building module:
cleaning build area...
'make' -j32 NV_EXCLUDE_BUILD_MODULES='' KERNEL_UNAME=6.5.0-15-generic modules.....(bad exit status: 2)
ERROR (dkms apport): binary package for nvidia: 535.54.03 not found
Error! Bad return status for module build on kernel: 6.5.0-15-generic (x86_64)
Consult /var/lib/dkms/nvidia/535.54.03/build/make.log for more information.

请问大佬们有遇到这个问题的吗 怎么解决的呀

其他人提问

请问解决了吗

问题一:

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

这种情况可能是没有禁用系统中自带的nouveau

问题一:

Module nvidia/520.61.05 already installed on kernel 5.15.0-105-generic/x86_64







W&J

无法连接NVIDIA驱动:NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

坦笑&&life

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值