记一次Linux服务器的显卡驱动消失又装上的过程
因为reboot服务器了以后不明原因更新了centOS内核,导致显卡驱动没了,重新装驱动过程
故事背景
前一天试图更新linux默认语言,更改¥LANG后reboot服务器。第二天一大早过来炼丹发现速度变慢,xshell命令行输入nvidia-smi查看显卡占用,提示
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver
心里一凉,不知道还有没有实验室也用这台服务器,两张tesla V100找不到了可还行,立刻开始百度排除故障。
过程
首先lsb_release -a查看内核是centos7 然后 lspci | grep -i nvidia,显示
[root@sugon DeepLearning]# lspci | grep -i nvidia
1c:00.0 3D controller: NVIDIA Corporation GV100GL [Tesla V100 SXM2 32GB] (rev a1)
b2:00.0 3D controller: NVIDIA Corporation GV100GL [Tesla V100 SXM2 32GB] (rev a1)
确认显卡还在
随后输入cat /proc/driver/nvidia/version 发现看不到显卡驱动,确认是驱动没了。
解决方法
- 首先导入公共密钥,执行命令:rpm --import https://www.elrepo.org/RPM-GPG-KEY-elrepo.org
- 然后安装elrepo, 执行命令:rpm -Uvh http://www.elrepo.org/elrepo-release-7.0-2.el7.elrepo.noarch.rpm
- 执行nvidia-detect查找显卡驱动
- 执行命令yum -y install kmod-nvidia 安装显卡驱动
- reboot重启
效果
重启后输入cat /proc/driver/nvidia/version
[root@sugon DeepLearning]# cat /proc/driver/nvidia/version
NVRM version: NVIDIA UNIX x86_64 Kernel Module 460.56 Tue Feb 23 23:31:36 UTC 2021
GCC version: gcc version 4.8.5 20150623 (Red Hat 4.8.5-44) (GCC)
输入nvidia-smi