【mmdetection踩坑记录】(二)non-distributed模式多卡训练

本文详细记录了在MMDetection框架下,如何在非分布式模式下进行多卡训练并实现训练过程中的自动评估。通过修改默认配置文件,利用work_flow控制训练和验证的循环,以及在特定epoch后插入eval步骤。同时,文章还讨论了在验证过程中遇到的问题,如gt-bbox缺失,并给出了相应解决方案。
摘要由CSDN通过智能技术生成

本博客内容涉及较多对代码的修改,这个前提是对train的过程有比较详细的了解,这部分详见【mmdetection实践】(二)训练自己的网络。在【mmdetection实践】(二)训练自己的网络我使用distributed模式,总是会莫名奇妙的卡住,所以就想采用non-distributed模式进行多卡训练。

使用non-distributed模式进行多卡训练

non-distributed的直接使用tools/train.py进行训练,所以查看其中内容,可以看到

def parse_args():
    parser = argparse.ArgumentParser(description='Train a detector')
    parser.add_argument(
        '--gpus',
        type=int,
        default=1,
        help='number of gpus to use '
        '(only applicable to non-distributed training)')

其中有一条是跟gpus有关,所以在调用train.py时,可以将“–gpus 4”作为参数传入,将gpu使用个数设定为4。或者,直接修改代码中的default值,设置成电脑的gpu个数,以后就可以不用每次都输入“–gpus”了。

在训练过程中进行eval

【mmdetection实践】(二)训练自己的网络中提到,dist_train.sh的调用可以传入参数–validate来控制在训练中进行评价。但这个功能并没有集成到non-distributed模式中,这个也可以参考:
Built-in validation is not implemented yet in not-distributed training. Use distributed training or test.py and *eval.py scripts instead.’

所以想要在train的过程中进行eval,就需要自己添加一部分代码。总体思想就是在train的过程中,经过一定的epoch,就调用一次eval。

使用work_flow来进行控制

【mmdetection实践】(二)训练自己的网络中看到了在CONFIG_FILE中workflow的应用,可以通过设定workflow来控制train和val的循环。例如:

workflow = [('train', 3), ('val' , 1)]

这意味着每3个train之后增加1个val构成一个循环。但这样做也有明显的缺点,先看以下log:

2019-11-07 15:35:39,911 - INFO - workflow: [('train', 3), ('val', 1)], max: 10 epochs
2019-11-07 15:35:49,115 - INFO - Epoch [1][1/1]	lr: 0.00333, eta: 0:01:22, time: 9.202, data_time: 0.423, memory: 2203, acc: 99.1943, loss_cls: 0.4014, loss_bbox: 0.0097, loss_rpn_cls: 0.6872, loss_rpn_bbox: 0.0047, loss: 1.1030
2019-11-07 15:35:50,462 - INFO - Epoch [2][1/1]	lr: 0.00335, eta: 0:00:41, time: 1.290, data_time: 0.755, memory: 2527, acc: 99.3408, loss_cls: 0.1254, loss_bbox: 0.0139, loss_rpn_cls: 0.6817, loss_rpn_bbox: 0.0049, loss: 0.8259
2019-11-07 15:35:51,855 - INFO - Epoch [3][1/1]	lr: 0.00336, eta: 0:00:27, time
  • 3
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 13
    评论
评论 13
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值