分布式训练需要用tool文件夹里dist_train.sh辅助运行
sh tools/dist_train.sh ${CONFIG_FILE} ${GPUS} [可选参数]
可选参数可以为:
-
–no-validate (不推荐): 训练时代码库默认会在每 k 轮迭代后在验证集上进行评估,如果不需评估使用命令 --no-validate
-
–work-dir ${工作路径}: 在配置文件里重写工作路径文件夹
-
–resume-from ${检查点文件}: 继续使用先前的检查点 (checkpoint) 文件(可以继续训练过程)
-
–load-from ${检查点文件}: 从一个检查点 (checkpoint) 文件里加载权重(对另一个任务进行精调)
-
–deterministic: 选择此模式会减慢训练速度,但结果易于复现
resume-from 和 load-from 的区别:
-
resume-from 加载出模型权重和优化器状态包括迭代轮数等
-
load-from 仅加载模型权重,从第0轮开始训练
示例:
# 模型的权重和日