【mmdetection踩坑记录】（二）non-distributed模式多卡训练

最新推荐文章于 2024-06-22 20:38:25 发布

麒麒哈尔

最新推荐文章于 2024-06-22 20:38:25 发布

阅读量1.2w

点赞数 3

分类专栏： mmdetection 文章标签： CV 目标检测

本文链接：https://blog.csdn.net/wqwqqwqw1231/article/details/103097356

版权

本文详细记录了在MMDetection框架下，如何在非分布式模式下进行多卡训练并实现训练过程中的自动评估。通过修改默认配置文件，利用work_flow控制训练和验证的循环，以及在特定epoch后插入eval步骤。同时，文章还讨论了在验证过程中遇到的问题，如gt-bbox缺失，并给出了相应解决方案。

摘要由CSDN通过智能技术生成

本博客内容涉及较多对代码的修改，这个前提是对train的过程有比较详细的了解，这部分详见【mmdetection实践】（二）训练自己的网络。在【mmdetection实践】（二）训练自己的网络我使用distributed模式，总是会莫名奇妙的卡住，所以就想采用non-distributed模式进行多卡训练。

使用non-distributed模式进行多卡训练

non-distributed的直接使用tools/train.py进行训练，所以查看其中内容，可以看到

def parse_args():
    parser = argparse.ArgumentParser(description='Train a detector')
    parser.add_argument(
        '--gpus',
        type=int,
        default=1,
        help='number of gpus to use '
        '(only applicable to non-distributed training)')

其中有一条是跟gpus有关，所以在调用train.py时，可以将“–gpus 4”作为参数传入，将gpu使用个数设定为4。或者，直接修改代码中的default值，设置成电脑的gpu个数，以后就可以不用每次都输入“–gpus”了。

在训练过程中进行eval

在【mmdetection实践】（二）训练自己的网络中提到，dist_train.sh的调用可以传入参数–validate来控制在训练中进行评价。但这个功能并没有集成到non-distributed模式中，这个也可以参考：
Built-in validation is not implemented yet in not-distributed training. Use distributed training or test.py and *eval.py scripts instead.’

所以想要在train的过程中进行eval，就需要自己添加一部分代码。总体思想就是在train的过程中，经过一定的epoch，就调用一次eval。

使用work_flow来进行控制

在【mmdetection实践】（二）训练自己的网络中看到了在CONFIG_FILE中workflow的应用，可以通过设定workflow来控制train和val的循环。例如：

workflow = [('train', 3), ('val' , 1)]

这意味着每3个train之后增加1个val构成一个循环。但这样做也有明显的缺点，先看以下log：

2019-11-07 15:35:39,911 - INFO - workflow: [('train', 3), ('val', 1)], max: 10 epochs
2019-11-07 15:35:49,115 - INFO - Epoch [1][1/1]	lr: 0.00333, eta: 0:01:22, time: 9.202, data_time: 0.423, memory: 2203, acc: 99.1943, loss_cls: 0.4014, loss_bbox: 0.0097, loss_rpn_cls: 0.6872, loss_rpn_bbox: 0.0047, loss: 1.1030
2019-11-07 15:35:50,462 - INFO - Epoch [2][1/1]	lr: 0.00335, eta: 0:00:41, time: 1.290, data_time: 0.755, memory: 2527, acc: 99.3408, loss_cls: 0.1254, loss_bbox: 0.0139, loss_rpn_cls: 0.6817, loss_rpn_bbox: 0.0049, loss: 0.8259
2019-11-07 15:35:51,855 - INFO - Epoch [3][1/1]	lr: 0.00336, eta: 0:00:27, time

最低0.47元/天解锁文章

麒麒哈尔

关注

3
点赞
踩
27

收藏

觉得还不错? 一键收藏
13
评论
【mmdetection踩坑记录】（二）non-distributed模式多卡训练

文章目录使用non-distributed模式进行多卡训练在训练过程中进行eval使用work_flow来进行控制val的过程中没有本博客内容涉及较多对代码的修改，这个前提是对train的过程有比较详细的了解，这部分详见【mmdetection实践】（二）训练自己的网络。在【mmdetection实践】（二）训练自己的网络我使用distributed模式，总是会莫名奇妙的卡住，所以就想采用non...
复制链接

扫一扫

专栏目录