多步长MultiStepLR动态调整学习率断点的保存与恢复

1、动态调整学习率以及保存学习率

最近在模型训练时,发现动态调整学习率时,如果训练中断,没有将学习率保存起来,下一次断点训练使用的还是初始学习率。

多步长SGD继续训练:在简单的任务中,我们使用固定步长(也就是学习率LR)进行训练,但是如果学习率lr设置的过小的话,则会导致很难收敛,如果学习率很大的时候,就会导致在最小值附近,总会错过最小值,loss产生震荡,无法收敛。所以这要求我们要对于不同的训练阶段使用不同的学习率,一方面可以加快训练的过程,另一方面可以加快网络收敛。

所以我们在保存网络中的训练的参数的过程中,还需要保存scheduler的state_dict,然后断点继续训练的时候恢复。

#恢复断点
    RESUME = False
    if RESUME:
        path_checkpoint = "/home/sgyj/code/FrequecyTransformer/checkpoint/ckpt_best_55.pth"  # 断点路径
        checkpoint = torch.load(path_checkpoint)  # 加载断点

        net.load_state_dict(checkpoint['net'])  # 加载模型可学习参数

        optimizer.load_state_dict(checkpoint['optimizer'])  # 加载优化器参数
        start_epoch = checkpoint['epoch']  # 设置开始的epoch
        scheduler.load_state_dict(checkpoint['scheduler'])#恢复scheduler的state_dict

#保存断点
  if (epoch != 0 and epoch % 5 == 0):
            checkpoint = {
                "net": net.state_dict(),
                'optimizer': optimizer.state_dict(),
                "epoch": epoch,
                'scheduler':scheduler.state_dict()
            }
            if not os.path.isdir("/home/sgyj/code/FrequecyTransformer/checkpoint"):
                os.mkdir("/home/sgyj/code/FrequecyTransformer/checkpoint")
            torch.save(checkpoint, '/home/sgyj/code/FrequecyTransformer/checkpoint/ckpt_best_%s.pth' % (str(epoch)))
        # 每20个epoch保存一次模型

可以参考如下文章
https://blog.csdn.net/weixin_35698091/article/details/112429883

2、打印学习率

动态的打印学习率

print(optimizer.state_dict()['param_groups'][0]['lr'])
  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
学习是训练深度学习模型中一个重要的超参数,对模型的训练效果有极大的影响。PyTorch中提供了多种动态调整学习的方法,能够根据训练过程中的损失值、准确或训练轮数等信息动态调整学习,从而使得训练过程更加有效和高效。 在PyTorch中,可以通过定义一个学习调度器(lr_scheduler)来实现动态调整学习。PyTorch中提供了以下几种学习调整器: 1. StepLR(lr_scheduler.StepLR):在给定的一个step_size的间隔内,将学习乘以gamma。当epoch_size被调整为n时,学习按下面的公式来更新: ```python lr = lr * gamma ^ floor(epoch_size / step_size) ``` 这个调度器通常使用一个固定的step_size,每n个epoch就将学习缩小一定比例。 2. MultiStepLR(lr_scheduler.MultiStepLR):在给定milestones列表中的epoch数后,将学习乘以gamma。每个milestone后,gamma的乘数乘以上一个。 ```python if epoch in milestones: lr = lr * gamma ``` 这个调度器通常使用一个milestones列表,在每个milestone处将学习乘以gamma。 3. ExponentialLR(lr_scheduler.ExponentialLR):获取指数衰减值gamma,然后每个epoch更新学习。公式为 ```python lr = lr * gamma ** epoch ``` 该调度器通常将学习按指数级衰减,gamma通常是在0.1-0.9之间,通常选择比较小的值。 4. CosineAnnealingLR(lr_scheduler.CosineAnnealingLR):将学习按照一定的余弦函数来调整。公式为 ```python lr = eta_min + 0.5 * (lr_max - eta_min) * (1 + cos(T_cur / T_max * pi)) ``` 其中T_cur是当前epoch的个数,T_max是期望学习到达点的epoch数量。 如果调度器以指定的warmup_epochs开始,那么lr_max将被限制到第warmup_epochs个epoch的学习。 以上是PyTorch中几种常见的学习调整方式,每种方式都有其优缺点。根据具体的模型和数据集,选择合适的学习调整方式可以使得训练过程更加有效和高效。同时,也可以将不同的学习调整方式进行组合,实现更加复杂的学习调整策略。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值