服务器:Linux-Ubuntu20.04-RTX 3090*4
一、显卡驱动安装
添加源
sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt update
查看推荐的驱动版本
ubuntu-drivers devices
一般会出现一个推荐的最大版本和几个一般版本。在我的服务器,推荐版本是530,起初我安装了推荐,但后面安装cuda后无法运行,所以又重新安装了515.105.01,因此需要根据cuda版本的驱动对应关系进行安装。nvidia驱动对应cuda版本
二、CUDA安装
cuda是英伟达针对GPU的加速处理工具,cudnn是其中的一个模块,我们可以把cuda当做一个平台,而cudnn是针对神经网络运算的一个“功能键”
2.1 下载与安装CUDA
根据上述的显卡驱动与cuda版本之间的对应关系,我们能从Nvidia官网找到对应系统与显卡驱动下的cuda版本。
可以看见最新的版本已经CUDA已经更新到了12.1.1,但根据安装的显卡驱动与cuda的对应,我选择11.7.0进行安装。
选择local版本,然后在终端中依次输入
wget https://developer.download.nvidia.com/compute/cuda/11.7.0/local_installers/cuda_11.7.0_515.43.04_linux.run
sudo sh cuda_11.7.0_515.43.04_linux.run
wget
是下载此版本的CUDA到当前位置,如果没有换源的话会花上一段时间(但实测也不会很慢)
运行.run
程序后,依次点击Contunue
,然后键入accept
然后取消掉Driver
,选择Install
,安装完成后,我们接着需要修改环境变量让linux
知道CUDA
安装到当前账户下了
sudo vim ~/.bashrc
键入i
进入编辑模式,在开头添加:
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda/lib64
export PATH=$PATH:/usr/local/cuda/bin
export CUDA_HOME=$CUDA_HOME:/usr/local/cuda
然后输入esc,
输入:wq
保存退出,
在终端输入, 运行 .bashrc
系统环境更新:
source ~/.bashrc
sudo ldconfig
2.2 验证CUDA安装:
nvcc -V
三、cuDNN下载
在nvidia官网下载cuDNN选择CUDA 11.X
版本适用的cuDNN v8.9
,选择Linux x86
版本后缀为Tar
的文件本地下载(可加速doge)使用FileZilla
传输至服务器目录,上传后输入解压缩:
tar -xvf cudnn-linux-x86_64-8.4.0.27_cuda11.6-archive.tar.xz
解压缩后,需要如在windows平台一样进行CUDA拷贝,激活cuDNN:
sudo cp cudnn-linux-x86_64-8.4.0.27_cuda11.6-archive/include/cudnn*.h /usr/local/cuda/include
sudo cp -p cudnn-linux-x86_64-8.4.0.27_cuda11.6-archive/lib/libcudnn* /usr/local/cuda/lib64
sudo chmod a+r /usr/local/cuda/include/cudnn*.h /usr/local/cuda/lib64/libcudnn*
至此,完成了cuDNN在CUDA中的激活。
四、pytorch环境配置
4.1 Anaconda-Linux安装
在这里找到你需要的Anaconda版本
以我的服务器安装为例,输入:
wget https://repo.anaconda.com/archive/Anaconda3-2023.03-1-Linux-x86_64.sh
如果wget
指令失效,需要手动安装一下:
apt-get install -y wget
给权限,并安装:
chmod +x Anaconda3-2023.03-1-Linux-x86_64.sh
./Anaconda3-2023.03-1-Linux-x86_64.sh
一直Enter
向下,并最终输入yes
,在选择是否添加环境变量选择yes
输入:安装成功
conda -V
4.2 创建虚拟环境
conda create -n DL01(自己起名) python=3.9
激活虚拟环境:
conda activate DL01
安装pytorch 1.13.1
这里,我选择了pip安装
pip install torch==1.13.1+cu117 torchvision==0.14.1+cu117 torchaudio==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu117
这里不推荐使用最新torch 2.0
版本,原因在于timm
库暂时没有支持。
4.3 测试安装与cuda调用
查看环境:
conda info --envs