升级NVIDIA driver和cuda版本 (先升级cuda或者先升级NVIDIA driver都可以,我在不同的服务器上都试验过)
升级NVIDIA driver
1.首先要卸载之前低版本的驱动。
在终端输入:sudo apt-get purge nvidia*
然后输入:nvidia-smi
如果没有信息显示,说明卸载成功。进行下一步。
2.在 https://www.geforce.cn/drivers 上根据显卡型号下载驱动
然后在下载目录下打开终端输入:
sudo sh NVIDIA-Linux-x86_64-520.56.06.run
先关闭xserver,否则可能安装失败
systemctl stop gdm.service
安装完毕后,来启动X Server.
systemctl start gdm.service
我这遇到一个报错:
An NVIDIA kernel module 'nvidia-uvm' appears to already be loaded in your kernel. This may be because it is in use
先:
sudo service lightdm stop
sudo stop nvidia-digits-server
sudo service docker stop
sudo rmmod nvidia-uvm
再:
sudo lsof -n -w /dev/nvidia*
sudo kill -9 PID
重新安装,一路默认
cuda升级
https://blog.csdn.net/my__blog/article/details/125720601
1.查看显卡是否正常
lspci|grep NVIDIA
2.选择下载对应的CUDA包
https://developer.nvidia.com/cuda-downloads
wget https://developer.download.nvidia.com/compute/cuda/11.7.0/local_installers/cuda_11.7.0_515.43.04_linux.run
sudo sh cuda_11.7.0_515.43.04_linux.run
默认选项,到安装那一步记得把驱动安装去掉(选中按下回车就能取消选中)
结果显示如下表示安装成功:
此时再看nvidia-smi
cuda和NVIDIA driver对应关系:
http://www.8fe.com/jiaocheng/2376.html
添加环境变量
在 ~/.bashrc中修为下图显示的内容
export PATH=$PATH:/usr/local/cuda-11.7/bin
export LD_LIBRARY_PATH=/usr/local/cuda-11.7/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
重启服务器(我这边不重启也可以),重新source环境
source ~/.bashrc
这样就升级完成了