deepspeed多机多卡,断点继续预训练

以下是对你提供的日志的详细解析,以及其对训练的影响:

日志解析

  1. 恢复训练

    pgsql

    复制
    gpu009: [INFO|trainer.py:2109] 2024-07-20 22:38:47,510 >>   Continuing training from checkpoint, will skip to saved global_step
    gpu009: [INFO|trainer.py:2110] 2024-07-20 22:38:47,510 >>   Continuing training from epoch 0
    gpu009: [INFO|trainer.py:2111] 2024-07-20 22:38:47,510 >>   Continuing training from global step 2760
    gpu009: [INFO|trainer.py:2113] 2024-07-20 22:38:47,510 >>   Will skip the first 0 epochs then the first 2760 batches in the first epoch.
    
    • 含义:训练从上次保存的检查点恢复:
      • epoch 0:表示从第 0 轮开始。
      • global step 2760:表示从全局步骤 2760 开始。
      • 跳过的批次:在第 0 轮中跳过前 2760 个批次。
  2. 参数不匹配警告

    pgsql

    复制
    gpu009: Warning: The following arguments do not match the ones in the `trainer_state.json` within the checkpoint directory: 
    gpu009: 	save_steps: 1200 (from args) != 120 (from trainer_state.json)
    gpu004: Warning: The following arguments do not match the ones in the `trainer_state.json` within the checkpoint directory: 
    gpu004: 	save_steps: 1200 (from args) != 120 (from trainer_state.json)
    gpu004: Warning: The following arguments do not match the ones in the `trainer_state.json` within the checkpoint directory: 
    gpu004: 	save_steps: 1200 (from args) != 120 (from trainer_state.json)
    
    • 含义:存在参数不匹配:
      • save_steps:当前配置的保存步数为 1200,而检查点中的配置为 120。这意味着在恢复训练时,模型的保存频率不同。

对训练的影响

  • 恢复训练:从检查点恢复训练通常不会对训练产生负面影响,只要恢复的状态是有效的。如果检查点是完整且正确的,训练将顺利进行。

  • 参数不匹配

    • 潜在影响:不匹配的参数可能导致模型在训练过程中表现不一致。例如,保存频率的改变可能导致模型在某些时刻未能保存,影响调试和模型的持续训练。
    • 建议:确保训练参数与检查点一致,以避免潜在的问题。如果需要更改参数,最好在训练开始前进行调整。

总结

这段日志主要表明从检查点恢复训练,并且存在参数不匹配的警告。虽然恢复训练本身不会影响训练过程但参数不匹配可能需注意并进行调整,以确保训练的一致性和有效性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值