裸机开始部署显卡驱动+CUDA+cudnn
CUDA起手(关键)
一般的教程都从安装显卡驱动开始,但是因为现在的各种pytorch版本支持的CUDA不一样,一个小小版本的不合适就会导致最后训练的时候出问题。所以首先我们要确定自己需要的CUDA版本。
我们可以使用pytorch官网的配置方法配置,这样出错的概率会比较低,当前网站https://pytorch.org/中的配置方法如图
我们可以使用(但是先不要使用,后边再使用)在anaconda中创建的环境进行pytorch的配置。
conda install pytorch torchvision torchaudio cudatoolkit=11.3 -c pytorch
从中我们看到cudatoolkit的版本为11.3,我们则去CUDA官网下载11.3版本的CUDA https://developer.nvidia.com/cuda-toolkit-archive
如图选择我们ubuntu18.04系统对应的CUDA11.3的runfile
我们注意到CUDA中wget的命令行里,CUDA11.3.1后面还有一段数字:cuda_11.3.1_465.19.01_linux.run
这个465.19.01就是本CUDA版本需要NVIDA显卡驱动在465.19.01版本以上。所以我们需要到NVIDIA官网:https://www.nvidia.com/en-us/geforce/drivers/(破玩意真TM卡)上下载465.19.01版本以上的显卡驱动就可以。
显卡驱动继续
下载好后使用下述命令可以查看 nouveau 驱动是否运行:
lsmod | grep nouveau
若出现下述结果:
nouveau 1863680 9
video 49152 1 nouveau
ttm 102400 1 nouveau
mxm_wmi 16384 1 nouveau
drm_kms_helper 180224 1 nouveau
drm 479232 12 drm_kms_helper,ttm,nouveau
i2c_algo_bit 16384 2 igb,nouveau
wmi 28672 4 intel_wmi_thunderbolt,wmi_bmof,mxm_wmi,nouveau
说明 nouveau 驱动正在运行。
2.运行下述命令禁用该驱动:
sudo bash -c "echo blacklist nouveau > /etc/modprobe.d/blacklist-nvidia-nouveau.conf"
sudo bash -c "echo options nouveau modeset=0 >> /etc/modprobe.d/blacklist-nvidia-nouveau.conf"
检查命令是否正确:
cat /etc/modprobe.d/blacklist-nvidia-nouveau.conf
若出现下述结果说明命令正确:
blacklist nouveau
options nouveau modeset=0
3.更新设置并重启:
sudo update-initramfs -u
sudo reboot
4.重启后重新输入下述命令:
lsmod | grep nouveau
若没有任何输出说明禁用 nouveau 驱动成功
之后可以开始安装了
首先进入命令行模式: 一般的电脑是ctrl+alt+F2~F7进入命令行界面,ctrl+alt+F1回到图形化界面。
也有我这种戴尔的ctrl+alt+F7是进入图形界面ctrl+alt+F1-F6才是进入命令行界面的(不重要)
进入后输入你的用户名和密码,之后命令行输入
sudo service lightdm stop
禁用图形化界面,这时候就无法进入图形化界面了。
如果中途发现有问题可以使用
sudo service lightdm start
重新激活图形化界面,你就可以回来了。
会到上面,stop之后进入你英伟达显卡驱动的目录,使用官方文档里说的
sudo ./NVIDIA-Linux-x86_64-510.39.01.run
注意自己换自己的版本号!!!
安装就好了,一路yes,直到最后提示complete。
打开终端,输入nvidia-smi显示出信息就说明你安装成功了
回到CUDA
把驱动装好了就回来安装CUDA吧,到刚才wget下载的CUDA目录下,执行
sudo sh 你的安装文件
然后选择的时候把driver去掉,因为我们上一步已经装好了
cudnn收尾
这个就按照你的CUDA版本找对应的cudnn的把include和lib64的文件拷进CUDA路径下,网上教程太多了,随便找一个就行。
安装好了环境,到YOLOv5了
在官网下载最新的yolov5-master
下载之后在anaconda里创建一个YOLOv5的环境,anaconda环境网上随便找个教程都有装的,支持python3.8以上的就行。
在你的终端前面都有个(base)之后,执行
conda create -n yoloGPU python==3.8
生成一个用来GPU训练的环境,这时候可以执行最早pytorch官网里的那条了
conda install pytorch torchvision torchaudio cudatoolkit=11.3 -c pytorch
慢的话请参考https://blog.csdn.net/weixin_43226196/article/details/122710103
(谢谢大佬的帖子,快多了)
装好之后进入yolo的目录,安装yolo的依赖
pip3 install -r requirement.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
后面的-i是换成清华源安装,会快很多
至此所有的yolo配置已经完成,开始训练吧。记得调用train.py脚本的时候加参数–decive 0
但是!没想到吧,还有其他援助。
yolov5的预训练权重下载不下来,因为源是google drive的,文件夹里自带的脚本调用safe_download也基本没有速度,这时候你需要一个外国朋友帮你去github下载。什么?没有外国朋友怎么办?自己爬墙结交外国朋友去吧(只能帮到这了,怎么爬墙自己想办法吧)