裸机到yolov5GPU开始训练

zcnnxy

已于 2022-04-08 16:32:46 修改

阅读量1.5k

点赞数 1

文章标签： python cuda 神经网络深度学习

于 2022-04-08 16:32:22 首次发布

本文链接：https://blog.csdn.net/zcnnxy/article/details/124042849

版权

裸机开始部署显卡驱动+CUDA+cudnn

CUDA起手（关键）

一般的教程都从安装显卡驱动开始，但是因为现在的各种pytorch版本支持的CUDA不一样，一个小小版本的不合适就会导致最后训练的时候出问题。所以首先我们要确定自己需要的CUDA版本。
我们可以使用pytorch官网的配置方法配置，这样出错的概率会比较低，当前网站https://pytorch.org/中的配置方法如图在这里插入图片描述
我们可以使用（但是先不要使用，后边再使用）在anaconda中创建的环境进行pytorch的配置。

conda install pytorch torchvision torchaudio cudatoolkit=11.3 -c pytorch

从中我们看到cudatoolkit的版本为11.3，我们则去CUDA官网下载11.3版本的CUDA https://developer.nvidia.com/cuda-toolkit-archive
如图选择我们ubuntu18.04系统对应的CUDA11.3的runfile 在这里插入图片描述
我们注意到CUDA中wget的命令行里，CUDA11.3.1后面还有一段数字：cuda_11.3.1_465.19.01_linux.run
这个465.19.01就是本CUDA版本需要NVIDA显卡驱动在465.19.01版本以上。所以我们需要到NVIDIA官网：https://www.nvidia.com/en-us/geforce/drivers/（破玩意真TM卡）上下载465.19.01版本以上的显卡驱动就可以。

显卡驱动继续

下载好后使用下述命令可以查看 nouveau 驱动是否运行：

lsmod | grep nouveau

若出现下述结果：

nouveau 1863680 9
video 49152 1 nouveau
ttm 102400 1 nouveau
mxm_wmi 16384 1 nouveau
drm_kms_helper 180224 1 nouveau
drm 479232 12 drm_kms_helper,ttm,nouveau
i2c_algo_bit 16384 2 igb,nouveau
wmi 28672 4 intel_wmi_thunderbolt,wmi_bmof,mxm_wmi,nouveau
说明 nouveau 驱动正在运行。

2.运行下述命令禁用该驱动：

sudo bash -c "echo blacklist nouveau > /etc/modprobe.d/blacklist-nvidia-nouveau.conf"

sudo bash -c "echo options nouveau modeset=0 >> /etc/modprobe.d/blacklist-nvidia-nouveau.conf"

检查命令是否正确：

cat /etc/modprobe.d/blacklist-nvidia-nouveau.conf

若出现下述结果说明命令正确：

blacklist nouveau
options nouveau modeset=0

3.更新设置并重启：

sudo update-initramfs -u
sudo reboot

4.重启后重新输入下述命令：

lsmod | grep nouveau

若没有任何输出说明禁用 nouveau 驱动成功

之后可以开始安装了
首先进入命令行模式：一般的电脑是ctrl+alt+F2~F7进入命令行界面，ctrl+alt+F1回到图形化界面。
也有我这种戴尔的ctrl+alt+F7是进入图形界面ctrl+alt+F1-F6才是进入命令行界面的（不重要）
进入后输入你的用户名和密码，之后命令行输入

sudo service lightdm stop

禁用图形化界面，这时候就无法进入图形化界面了。
~~如果中途发现有问题可以使用~~

sudo service lightdm start

~~重新激活图形化界面，你就可以回来了。~~

会到上面，stop之后进入你英伟达显卡驱动的目录，使用官方文档里说的

sudo ./NVIDIA-Linux-x86_64-510.39.01.run

注意自己换自己的版本号！！！
安装就好了，一路yes，直到最后提示complete。

打开终端，输入nvidia-smi显示出信息就说明你安装成功了

回到CUDA

把驱动装好了就回来安装CUDA吧，到刚才wget下载的CUDA目录下，执行

sudo sh 你的安装文件

然后选择的时候把driver去掉，因为我们上一步已经装好了

cudnn收尾

这个就按照你的CUDA版本找对应的cudnn的把include和lib64的文件拷进CUDA路径下，网上教程太多了，随便找一个就行。

安装好了环境，到YOLOv5了

在官网下载最新的yolov5-master
下载之后在anaconda里创建一个YOLOv5的环境，anaconda环境网上随便找个教程都有装的，支持python3.8以上的就行。
在你的终端前面都有个（base）之后，执行

conda create -n yoloGPU python==3.8

生成一个用来GPU训练的环境，这时候可以执行最早pytorch官网里的那条了

conda install pytorch torchvision torchaudio cudatoolkit=11.3 -c pytorch

慢的话请参考https://blog.csdn.net/weixin_43226196/article/details/122710103
（谢谢大佬的帖子，快多了）

装好之后进入yolo的目录，安装yolo的依赖

pip3 install -r requirement.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

后面的-i是换成清华源安装，会快很多

至此所有的yolo配置已经完成，开始训练吧。记得调用train.py脚本的时候加参数–decive 0

但是！没想到吧，还有其他援助。
yolov5的预训练权重下载不下来，因为源是google drive的，文件夹里自带的脚本调用safe_download也基本没有速度，这时候你需要一个外国朋友帮你去github下载。什么？没有外国朋友怎么办？自己爬墙结交外国朋友去吧（只能帮到这了，怎么爬墙自己想办法吧）