文章目录
本博客内容涉及较多对代码的修改,这个前提是对train的过程有比较详细的了解,这部分详见【mmdetection实践】(二)训练自己的网络。在【mmdetection实践】(二)训练自己的网络我使用distributed模式,总是会莫名奇妙的卡住,所以就想采用non-distributed模式进行多卡训练。
使用non-distributed模式进行多卡训练
non-distributed的直接使用tools/train.py进行训练,所以查看其中内容,可以看到
def parse_args():
parser = argparse.ArgumentParser(description='Train a detector')
parser.add_argument(
'--gpus',
type=int,
default=1,
help='number of gpus to use '
'(only applicable to non-distributed training)')
其中有一条是跟gpus有关,所以在调用train.py时,可以将“–gpus 4”作为参数传入,将gpu使用个数设定为4。或者,直接修改代码中的default值,设置成电脑的gpu个数,以后就可以不用每次都输入“–gpus”了。
在训练过程中进行eval
在【mmdetection实践】(二)训练自己的网络中提到,dist_train.sh的调用可以传入参数–validate来控制在训练中进行评价。但这个功能并没有集成到non-distributed模式中,这个也可以参考:
Built-in validation is not implemented yet in not-distributed training. Use distributed training or test.py and *eval.py scripts instead.’
所以想要在train的过程中进行eval,就需要自己添加一部分代码。总体思想就是在train的过程中,经过一定的epoch,就调用一次eval。
使用work_flow来进行控制
在【mmdetection实践】(二)训练自己的网络中看到了在CONFIG_FILE中workflow的应用,可以通过设定workflow来控制train和val的循环。例如:
workflow = [('train', 3), ('val' , 1)]
这意味着每3个train之后增加1个val构成一个循环。但这样做也有明显的缺点,先看以下log:
2019-11-07 15:35:39,911 - INFO - workflow: [('train', 3), ('val', 1)], max: 10 epochs
2019-11-07 15:35:49,115 - INFO - Epoch [1][1/1] lr: 0.00333, eta: 0:01:22, time: 9.202, data_time: 0.423, memory: 2203, acc: 99.1943, loss_cls: 0.4014, loss_bbox: 0.0097, loss_rpn_cls: 0.6872, loss_rpn_bbox: 0.0047, loss: 1.1030
2019-11-07 15:35:50,462 - INFO - Epoch [2][1/1] lr: 0.00335, eta: 0:00:41, time: 1.290, data_time: 0.755, memory: 2527, acc: 99.3408, loss_cls: 0.1254, loss_bbox: 0.0139, loss_rpn_cls: 0.6817, loss_rpn_bbox: 0.0049, loss: 0.8259
2019-11-07 15:35:51,855 - INFO - Epoch [3][1/1] lr: 0.00336, eta: 0:00:27, time