关于yolov5训练大量数据存在的问题记录

最新推荐文章于 2024-04-13 20:25:14 发布

门前大橋下丶

最新推荐文章于 2024-04-13 20:25:14 发布

阅读量4.9k

点赞数 5

分类专栏： python 深度学习文章标签： yolov5

本文链接：https://blog.csdn.net/weixin_44883371/article/details/124298163

版权

python 同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

深度学习

5 篇文章 0 订阅

订阅专栏

相关问题

我是自定义数据集一共多达4.5w张，图像大小大多为3M（4000*3000）甚至更高。因为使用的是V100 32G显卡，本着batch_size越大训练越快的原则直接把batch_size设置为最大。

python train.py --batch-size 320 --data data/test.yaml --cfg models/yolov5s.yaml --weights yolov5s.pt

1、batch_size设置最大后发现，训练特别慢，且显卡使用率长时间为0，偶尔会有使用率。结合打印日志发现，当完成一部分训练进行百分比展示时显卡使用率也会有。因此判断显卡未使用时是在进行io操作，在读取缓存数据，因为batch_size设置过大所以缓存特慢，当缓存完成才会进行训练，所以显存也会偶尔有使用率。（百度查询查到别人的分析：是exchange存取数据的问题，那个应该是个差不多网络存储的服务器，由于本身数据体积就比较大，程序在跑的时候数据读写速度跟不上，gpu就一直在等数据读进来）确定完原因开始在ylov5官方lssuse查找相关解决方法，作者提供了训练变快的方法

yolov5作者提供
自己也在网上找了一些训练加速的方法：

–workers 线程数量默认8（改成0或者增加）
–noval 每个epoch不进行评估
–cache 使用缓存训练
使用DDP (python -m torch.distributed.launch --nproc_per_node 2 train.py)

2、最开始我一直在workers这个参数以及DDP进行测试，发现并没有提升太多，还是很慢。后面就把这四点进行结合，在DDP上进行缓存训练、不评估进行多线程。问题又来了，因为数据量过大，在DDP上进行RAM缓存时时间会超时NCCL设置的1800000(半个小时)，保存本地disk缓存也是一样。自己排查觉得两部分解决这个问题：1.修改NCCL超时时间 2.加快缓存速度从而减少时间。因为需要快速训练所以并没有去解决

python -m torch.distributed.run --nproc_per_node 2 train.py --batch-size 320 --data data/test.yaml --cfg models/yolov5s.yaml --weights yolov5s.pt --noval --workers 32 --cache

3、当DDP行不通，就想着使用最原始的python train.py的方式去使用缓存训练，没想到一试竟然成功了。RAM和disk都可以，ram缓存到内存需要有足够大的虚拟内存也就是启动docker镜像的时候加上–shm-size 256g这个参数，disk缓存本地本地有足够大的存储即可。

python train.py --batch-size -1 --data data/test.yaml --cfg models/yolov5s.yaml --weights yolov5s.pt --workers 16 --cache disk
4.5w数据 309轮 训练时间：02:10

调试技巧

训练过程中发现batch-size并不是设置越大越快，测试发现batch-size=320和batch-size=128是一样的训练速度。（来源网络：对于batch-size，有点玄学。理论是能尽量跑满显存为佳，但实际测试下来，发现当为8的倍数时效率更高一点。就是32时的训练效率会比34的高一点，这里就不太清楚原理是什么了，实际操作下来是这样。）
workers也是一样，在镜像中workers不能设置过高会导致shm不够。我配置了–shm-size=256g能勉强最高使用32。测试发现使用32时算法并不进行卡着不执行，16会比8快三分之一左右
使用cache进行缓存训练是比一边加载一边训练快，所以不管数据多少都可以使用cache缓存循环会更快
DDP分布式训练，在NCCL不超时的情况下理论上会更快（待测试）

门前大橋下丶

关注

5
点赞
踩
24

收藏

觉得还不错? 一键收藏
4
评论
关于yolov5训练大量数据存在的问题记录

相关配置环境拉取官方最新的镜像（docker pull ultralytics/yolov5）以及代码（git clone https://github.com/ultralytics/yolov5）torch 1.10.1+cu102 CUDA:0 (Tesla V100-PCIE-32GB, 32510MiB)相关问题我是自定义数据集一共多达4.5w张，图像大小大多为3M（4000*3000）甚至更高。因为使用的是V100 32G显卡，本着batch_size越大训练越快的原则直接把ba
复制链接

扫一扫