YOLOv3使用darknet训练部分问题记录

最新推荐文章于 2025-03-18 15:36:29 发布

一颗时光

最新推荐文章于 2025-03-18 15:36:29 发布

阅读量1.1w

点赞数 10

文章标签： YOLOv3 目标检测深度学习

本文链接：https://blog.csdn.net/yikeshiguang/article/details/81080842

版权

1.cfg文件里的batch就是batch_size，subdivisions只是在显存不足的情况下把batch分批放入训练。？现在怀疑batch_size = batch/subdivisions。昨天跑的一个训练如果batch = batch_size的话那大约有80个epoch，但还是明显欠拟合，loss很高。所以还在疑惑？？？

2.epoch = max_batches/(images/bach) —— 暂时理解应该是这样？

3.max_batches = max_iterations

4.训练的时候batch在小于1000次时每100次保存模型，大于1000后每10000次保存一次模型。可以通过修改/examples/detector.c中的train_detector函数来自己决定多少张图保存一次模型。

5.假设steps = 10000 , scale = .1 ，那意思就是迭代到10000次时学习率衰减10倍。如果调整max_baches的大小，需要同时调整steps，而scale可以自己决定修不修改。

6.训练的时候若数据集小目标较少，106层会大概率输出nan，这是数据集的问题。如果数据集没有问题，可以通过调大batch或者调小learning_rate来解决。（yolo的训练调参略烦）

7.github上暂时还没有发现在pytorch框架下较好用的训练代码，尝试着跑了两个，效果不好，所以还是使用darknet来进行训练。

8.使用voc_label.py输出的是绝对路径。

9.训练的时候用 ./darknet detector train cfg/voc.data cfg/yolov3-voc.cfg darknet53.conv.74 2>1 | tee person_train.txt 保存训练内容

10.由于数据集的问题没有小目标，尝试使用三个数据集一起训练但大幅输出nan，表示训练很糟糕。所以在原有第一个数据集训练最后保存的模型的基础上，进行后续训练。也就是把预训练权重换成自己的xxx.weights，训练的输出暂时看起来较为正常，等训练完成了看结果好坏。（同时需要调整cfg文件的max_batches，比如第一次训练完保存的是100000次，生成了final.weights，那么接下去训练就需要把cfg调大超过10w次，不然会直接保存。）

后续补充，新手入门各种踩坑。。