一、创建docker
sudo NV_GPU=7 nvidia-docker run --name wgxiest -it -p 10029:22 -p 5009:80 -v /raid/wgxie/ssh-swin/:/workspace nvcr.io/nvidia/pytorch:20.12-py3
(10029和5009是宿主机端口,自定)
二、更新库
apt update
apt upgrade
三、安装CUDA
-
安装依赖
sudo apt-get install freeglut3-dev build-essential libx11-dev libxmu-dev libxi-dev libgl1-mesa-glx libglu1-mesa libglu1-mesa-dev
- 运行CUDA安装包
sh cuda_10.1.243_418.87.00_linux.run
- 报错:
./cuda-installer: error while loading shared libraries: libxml2.so.2: cannot open shared object file: No such file or directory
原因是缺少:libxml2
- 解决方法:
apt install libxml2
#安装时需要选择地区,选择亚洲上海即可
- 报错:
Failed to verify gcc version. See log at /var/log/cuda-installer.log for details.
跳过gcc版本检查即可
- 解决方法:
sh cuda_10.1.243_418.87.00_linux.run --override
- 弹出cuda安装参数时,需要确定的有
接受条款 :accept
选择安装内容:单选 cuda toolkit
update cuda路径 :yes
- 报错:
Installation failed. See log at /var/log/cuda-installer.log for details.
查看该日志,主要报错信息为:
[ERROR]: boost::filesystem::remove: Directory not empty: "/var/log/nvidia/.uninstallManifests/CUDA_Toolkit_10.1-components/"
出现这种情况,只需要在安装命令后再加上安装路径
--librarypath=/usr/local/cuda-10.1
安装路径按自己的选择
- 解决方法:
sh cuda_10.1.243_418.87.00_linux.run --override --librarypath=/usr/local/cuda-10.1
- 出现下图界面,安装成功
- nvidia-smi 查看cuda版本是否更换成功
- nvcc -V
四、配置CUDA环境变量(可选)
- 添加环境变量
vi ~/.bashrc export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda/lib64 export PATH=$PATH:/usr/local/cuda/bin export CUDA_HOME=$CUDA_HOME:/usr/local/cuda
-
多版本切换
cd /usr/local
cuda是默认路径,cuda-10.1和cuda-11.1是安装的两个版本
使用stat查看cuda文件夹链接的是哪个版本的cuda
可以看到cuda链接的是cuda-10.1
当想要使用cuda-11.1时,删除当前软链接,新建cuda-11.1和cuda的软链接即可。
sudo rm -rf cuda
sudo ln -s /usr/local/cuda-10.1 /usr/local/cuda
再次确认版本:
总结
本文主要是记录创建服务器docker后,cuda版本不符要求进行多版本安装配置,仅供私人学习。