Linux服务器的显卡驱动丢失又装上的过程

记一次Linux服务器的显卡驱动消失又装上的过程

因为reboot服务器了以后不明原因更新了centOS内核,导致显卡驱动没了,重新装驱动过程

故事背景

前一天试图更新linux默认语言,更改¥LANG后reboot服务器。第二天一大早过来炼丹发现速度变慢,xshell命令行输入nvidia-smi查看显卡占用,提示


NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver

心里一凉,不知道还有没有实验室也用这台服务器,两张tesla V100找不到了可还行,立刻开始百度排除故障。

过程

首先lsb_release -a查看内核是centos7 然后 lspci | grep -i nvidia,显示

[root@sugon DeepLearning]# lspci | grep -i nvidia
1c:00.0 3D controller: NVIDIA Corporation GV100GL [Tesla V100 SXM2 32GB] (rev a1)
b2:00.0 3D controller: NVIDIA Corporation GV100GL [Tesla V100 SXM2 32GB] (rev a1)

确认显卡还在
随后输入cat /proc/driver/nvidia/version 发现看不到显卡驱动,确认是驱动没了。

解决方法

  1. 首先导入公共密钥,执行命令:rpm --import https://www.elrepo.org/RPM-GPG-KEY-elrepo.org
  2. 然后安装elrepo, 执行命令:rpm -Uvh http://www.elrepo.org/elrepo-release-7.0-2.el7.elrepo.noarch.rpm
  3. 执行nvidia-detect查找显卡驱动
  4. 执行命令yum -y install kmod-nvidia 安装显卡驱动
  5. reboot重启

效果

重启后输入cat /proc/driver/nvidia/version

[root@sugon DeepLearning]# cat /proc/driver/nvidia/version 
NVRM version: NVIDIA UNIX x86_64 Kernel Module  460.56  Tue Feb 23 23:31:36 UTC 2021
GCC version:  gcc version 4.8.5 20150623 (Red Hat 4.8.5-44) (GCC) 

输入nvidia-smi
显示正常了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值