该文章参考众多文章,将安装过程参考文章,以及遇到的问题解决参考的文章记录下来。
以下是所有参考的文章,一般情况直接参考以下文章即可。
- 推荐显卡驱动查询:参考https://blog.csdn.net/a_123456598/article/details/107302271
- 卸载cuda参考文章:https://blog.csdn.net/Williamcsj/article/details/123514435
- 安装cuda,cudnn主要参考文章:https://blog.csdn.net/bingxinyang123/article/details/110238140
- 遇到gcc版本与新安装的cuda不匹配问题,选择卸载老gcc原来的安装新gcc5。参考https://blog.csdn.net/qq_37109317/article/details/118214001
- 软连接问题,gcc各种主次链接的问题,参考https://blog.csdn.net/qq_46621517/article/details/123735300,按这个教程走一次,虽然最后优先项还是存在问题,但是版本确实都切换成功为gcc5了
1.卸载老版本驱动
*方法一:*根据官方的接口(我的没有,所以这个方法跳过)
其实cuda安装时就已经准备好了卸载的接口,卸载程序在/usr/local/cuda-xx.x/bin下,需要注意的是cuda10.0及之前的版本卸载程序名为uninstall_cuda_xx.x.pl,而cuda10.1及之后的版本卸载程序名为cuda-uninstaller。
找到之后运行卸载程序即可,这里的xx.x更改自己的cuda版本。
但是我找不到这个文件,所以该方法跳过
方法2:命令行卸载
https://blog.csdn.net/Williamcsj/article/details/123514435
2.安装显卡驱动
直接ubuntu的软件与更新的附加程序里选择对应版本,可以找到一个命令,查找推荐版本(后缀带recommend)但是要避开open版本不稳定。可以参考https://blog.csdn.net/a_123456598/article/details/107302271
需要注意的是,如果发现 安装重启后nvidia-smi还是报错,这时候可能是内核版本与显卡不匹配,ubuntu升级过内核导致。重启选择最新内核启动
3.安装cuda
选择带runfile的,不选带deb的,那个报错。runfile直接集成为一个文件,直接运行即可
以下是我安装cuda11.1.1的命令
wget https://developer.download.nvidia.com/compute/cuda/11.1.1/local_installers/cuda_11.1.1_455.32.00_linux.run
sudo sh cuda_11.1.1_455.32.00_linux.run
(1)运行命令后,如果报错gcc版本问题,选择忽略如下代码加一个后缀override即可
sudo sh cuda_11.1.1_455.32.00_linux.run --override
(2)安装界面启动,输入accept
(3)选择cuda需要安装的项目,选择不安装驱动,其他默认安装install
这一步很重要!!!(去掉第一项驱动)然后开始安装
如果你之前安装过显卡驱动,就要取消第一个驱动项,按回车,选择是否安装。如果是[ ]代表不安装,如果是[X]代表安装。不要搞反了,默认安装,需要我们把按回车把X去掉,即不安装驱动。是否安装了显卡驱动,另外打开一个终端通过nvidia-smi命令检查,如果跳出显卡运行情况那就是安装了。
(4)安装完成,结果如下
= Summary =
===========
Driver: Not Selected
Toolkit: Installed in /usr/local/cuda-11.1/
Samples: Installed in /home/robot/, but missing recommended libraries
Please make sure that
- PATH includes /usr/local/cuda-11.1/bin
- LD_LIBRARY_PATH includes /usr/local/cuda-11.1/lib64, or, add /usr/local/cuda-11.1/lib64 to /etc/ld.so.conf and run ldconfig as root
To uninstall the CUDA Toolkit, run cuda-uninstaller in /usr/local/cuda-11.1/bin
***WARNING: Incomplete installation! This installation did not install the CUDA Driver. A driver of version at least 455.00 is required for CUDA 11.1 functionality to work.
To install the driver using this installer, run the following command, replacing <CudaInstaller> with the name of this run file:
sudo <CudaInstaller>.run --silent --driver
Logfile is /var/log/cuda-installer.log
因为没有选择Driver所以这个结果是正常的
(6)添加cuda环境变量
还需要配置环境变量
sudo gedit ~/.bashrc
界面空白处添加环境变量,这里可以看到之前老版本的cuda环境变量有没有删除,如果有要删除
export PATH=/usr/local/cuda-11.1/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-11.1/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
然后刷新环境变量
source ~/.bashrc
(7)检查cuda是否安装
nvcc -V
显示 如下内容安装成功
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2020 NVIDIA Corporation
Built on Mon_Oct_12_20:09:46_PDT_2020
Cuda compilation tools, release 11.1, V11.1.105
Build cuda_11.1.TC455_06.29190527_0
安装cudnn
这里直接参考这篇文章
https://blog.csdn.net/bingxinyang123/article/details/110238140
遇到gcc问题请看文章开头总结。卸载原来部匹配的gcc,安装新的gcc,解决软连接问题,重新选择版本即可
最后按照该参考文章进行cudnn测试,测试成功