Bert增量训练——run_mlm.py脚本训练参数中文总结概括

最新推荐文章于 2024-05-30 11:52:11 发布

想躺平的小陈

最新推荐文章于 2024-05-30 11:52:11 发布

阅读量3k

点赞数 2

分类专栏：基于深度学习的智能合约漏洞检测方法 python学习笔记文章标签： bert 人工智能深度学习

本文链接：https://blog.csdn.net/weixin_44217936/article/details/125707581

版权

python学习笔记同时被 2 个专栏收录

27 篇文章 2 订阅

订阅专栏

基于深度学习的智能合约漏洞检测方法

2 篇文章 0 订阅

订阅专栏

Bert增量训练，run_mlm.py脚本链接如下：https://github.com/huggingface/transformers/tree/main/examples/pytorch/language-modeling

常用训练参数中文总结概括

参数：
output_dir (str) 必填参数: 写入模型预测和检查点的输出目录（必须要有）
overwrite_output_dir (bool) 可选参数，默认bool为False :如果为True，覆盖输出目录的内容。如果’ output_dir ‘指向检查点目录使用此选项继续训练。PS:文档是这么介绍的，实际上好像是在模型上进行重新训练，进度归零了。
do_train(bool) 可选参数，默认bool为False :是否需要进行训练。这个参数没有被Trainer直接使用，通过你的培训/评估脚本特定地去使用它。
do_eval(bool) 可选参数，默认bool为False :是否对验证集运行评估。如果evaluation_strategy 参数的值不是no,do_eval将会被自动设置为True。这个参数没有被Trainer直接使用，通过你的培训/评估脚本特定地去使用它。
evaluation_strategy(str or [~trainer_utils.IntervalStrategy] ) 可选参数，默认str 为no :培训过程中采用的评估策略。可能的值是:no:培训期间不进行评估。steps:每次eval_steps进行评估(并记录)。epoch:在每个epoch的末尾进行评估。
prediction_loss_only(bool) 可选参数，默认bool为False :当执行评估和生成预测时，只返回损失。
per_device_train_batch_size(int) 可选参数，默认int为8:用于培训的每个GPU/TPU/CPU核心的batchsize大小。
per_device_eval_batch_size(int) 可选参数，默认int为8:用于评估的每个GPU/TPU/CPU核心的batchsize大小。
gradient_accumulation_steps(int) 可选参数，默认int为1：在执行向后/更新传递之前，累积梯度的更新步骤数。PS:在使用梯度累加时，每走一步就等于后退一步。因此,日志记录,每个’ gradient_accumulation_steps * xxx_step ‘训练示例都将执行评估和保存。
eval_accumulation_steps(int) 可选参数，默认int为None:在将结果移动到CPU之前，累积输出张量的预测步骤数。如果如果不设置，整个预测将在GPU/TPU上累积，然后移动到CPU(更快，但需要更多的内存)。
eval_delay(float) 可选参数，默认float为0:在执行第一次求值之前等待的epoch或步骤的数量，取决于evaluation_strategy。
learning_rate(float) 可选参数，默认float为5e-5:初始的学习率是提供给 AdamW优化器.
weight_decay(float) 可选参数，默认float为0:在 AdamW优化器权重衰减应用(如果不是零)到所有层除了所有偏差和LayerNorm权重
num_train_epochs(float) 可选参数，默认float为3.0:要执行的训练epoch的总数(如果不是整数，将执行的小数部分的百分比停止训练前的最后一个时期)。
max_steps(int) 可选参数，默认int为-1:如果设置为正数，则表示要执行的训练步骤总数。覆盖num_train_epochs。在使用有限可迭代数据集的情况下，训练可能在达到设定的步骤数之前停止当所有数据耗尽时
lr_scheduler_type(str or[SchedulerType] ) 可选参数，默认str 为linear:要使用的调度器类型。有关所有可能的值，请参阅[SchedulerType]的文档。
warmup_steps (int) 可选参数，默认int为0:从0到’ learning_rate ‘的线性预热所使用的步骤数。覆盖warmup_ratio(此参数不做介绍)的任何效果。
save_strategy(str or ~[trainer_utils.IntervalStrategy] ) 可选参数，默认str 为steps:训练中采用的检查点保存策略。可能的值是:no:在训练过程中不进行保存。epoch:保存在每个epoch的末尾。steps:每次’ save_steps ‘保存。
save_steps(int) 可选参数，默认int为500:如果save_strategy参数为steps，则两个检查点保存之前的更新步骤数。
save_total_limit(int) 可选参数，默认int为None:如果传递了一个值，将限制检查点的总数。在 output_dir中删除较旧的检查点
dataloader_drop_last(bool) 可选参数，默认bool为False :是否删除最后一个未完成的批处理(如果数据集的长度不能被批处理大小整除)与否。
eval_steps(int) 可选参数，默认int为None: 如果evaluation_strategy为steps，则两次计算之间的更新步骤数。如果没有设置，默认值将与logging_steps相同。
load_best_model_at_end(bool) 可选参数，默认bool为False :是否在训练结束时加载在训练中找到的最佳模型。PS：当设置为True时，参数save_strategy需要与evaluation_strategy相同，并且如果是steps， save_steps必须是eval_steps的整数倍。
metric_for_best_model(str) 可选参数，默认str为None:与load_best_model_at_end 一起使用，以指定用于比较两个不同的指标模型。必须是由求值返回的度量值的名称，带或不带’ “eval_” ‘前缀。如果未指定，默认为’ "loss ‘，并且’ load_best_model_at_end=True ‘(用于使用评估丢失)。如果你设置了这个值，’ greater_is_better ‘将默认为’ True '。不要忘记将它设置为“False”,你的指标越低越好。
ignore_data_skip(bool) 可选参数，默认bool为False :恢复训练时，是否跳过epoch和batch同时进行数据加载
和之前的训练阶段一样。如果设置为“True”，训练将开始得更快(如跳过的步骤),可能需要很长时间，但不会产生与中断训练相同的结果。
optim(str [training_args.OptimizerNames]) 可选参数，默认str为adamw_hf:优化器为adamw_hf, adamw_torch,adamw_apex_fused, or adafactor.