一. 首先,nvidia-smi 上面的CUDA版本是你的GPU支持的最高版本,并不是你已经安装好了,nvcc -V 这个显示的也不是
检查机器/usr/local目录下有没有cuda或cuda-xx.xx文件夹,如果没有,那99.99%说明该机器没有安装CUDA。
开始安装CUDA,选择.run安装
CUDA Toolkit Archive | NVIDIA Developer
先到官网 选择 与驱动版本相对应的CUDA小版本,记录两条命令
wget https://developer.download.nvidia.com/compute/cuda/12.2.2/local_installers/cuda_12.2.2_535.104.05_linux.run
sudo sh cuda_12.2.2_535.104.05_linux.run
ubuntu20.04 安装的时候 网上都 把gcc降级到7,但是22.04版本的Ubuntu已经移除了这个安装包,以不用降级,直接安装
下载好安装包之后。运行安装命令(安装界面可能会慢一点跳出来,等待一会)
sudo sh cuda_12.2.2_535.104.05_linux.run
1.选择继续
2. 因为之前已经安装过显卡驱动了,所以这里需要取消Driver(光标移动到Driver,然后按enter即可取消,不取消会导致安装终止),然后移动光标到Install,按enter执行安装。
这个安装界面的内容可能会不一样,我的没有CUDA例子,不用管,继续进行就可以
3. 配置环境变量
安装完成后会显示配置环境变量的说明,如下:
vim ~/.bashrc
最后两行添加路径:
export PATH=/usr/local/cuda-12.2/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-12.2/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
保存
source ~/.bashrc
这里通常会出错,注意路径cd /usr/local/查看路径
安装完成之后,使用nvcc -V 会出现你安装的版本号
安装好之后出现问题
Failed to initialize NVML: Driver/library version mismatch
NVML library version: 535.154
应该和上面的警告有关系,驱动版本至少是535以上,我当时使用的 ubuntu系统自己收索的驱动,忘了是什么版本了(奥,是535.129.03,可能是驱动升级来)
重新收索驱动,选择535版本,显示成功
安装cuDNN
1. 下载CUDA版本对应的cuDNN版本:
cuDNN Archive | NVIDIA Developer
下面是官方的安装文档
Installation Guide :: NVIDIA cuDNN Documentation
但是我上面都是使用的cuda-12.2,所以下面也做了一些修改
2.解压
tar -xvf cudnn-linux-x86_64-8.9.6.50_cuda12-archive.tar.xz
3.
sudo cp cudnn-*-archive/include/cudnn*.h /usr/local/cuda-12.2/include
sudo cp -P cudnn-*-archive/lib/libcudnn* /usr/local/cuda-12.2/lib64
sudo chmod a+r /usr/local/cuda-12.2/include/cudnn*.h /usr/local/cuda-12.2/lib64/libcudnn*
4. 查看cuDNN版本方法
cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2
根据这个进行配置的,但是我的都是使用的cuda-12.2,使用cuda不行