【炼丹经验积累（一）】梯度消失学习率自动调节附代码

多恩Stone

已于 2024-08-22 15:25:43 修改

阅读量410

点赞数 18

分类专栏： AIGC Diffusion LLM 文章标签：学习人工智能 python AIGC 深度学习

于 2024-08-22 15:03:18 首次发布

本文链接：https://blog.csdn.net/weixin_44212848/article/details/141428170

版权

AIGC 同时被 3 个专栏收录

62 篇文章 3 订阅

订阅专栏

Diffusion

27 篇文章 1 订阅

订阅专栏

LLM

6 篇文章 0 订阅

订阅专栏

问题描述

对 stable diffusion 3 进行 ip-adapter 微调，正常训练 2 w 步后，loss 出现不稳定状态，并出现 Not a number
问题定位：由于 loss 并没有变成无限大（梯度爆炸），那么应该是梯度消失。

解决方案

降低学习率

参考 huggingface 官方论坛¹，其中有用户提到：“我也遇到过几次了。就我而言，我能够通过降低学习率来解决这个问题，但你的学习率已经很低了，所以不幸的是，我不太确定。”
该博客中的学习率已经是 learning_rate=1e-6，而本文的情况是 1e-4 会在 200步 nan，8e-05 会在 600步 nan，降到 1e-5 稳定训练很长时间后，一觉醒来，发现在 2 w 步之后出现 nan 🫠

自动调节学习率

自动调节学习率的方式很多²，本文先从最简单地尝试起来，即“线性调节”

（1）先 warm up，在前 1/10 个训练步中，学习率从 0 调节到设定的 1e-5
（2）再衰减，在后续的训练步中，线性地从 1e-5 逐渐减为 0

线性调节学习率代码

# S-TODO 学习率调节器 lr_scheduler refer to https://pytorch.org/docs/stable/generated/torch.optim.lr_scheduler.LambdaLR.html#torch.optim.lr_scheduler.LambdaLR

from torch.optim.lr_scheduler import LambdaLR

def get_linear_schedule_with_warmup(optimizer, num_warmup_steps, num_training_steps, last_epoch=-1):
    def lr_lambda(current_step):
        if current_step < num_warmup_steps:
            return float(current_step) / float(max(1.0, num_warmup_steps))
        return max(
            0.0, float(num_training_steps - current_step) / float(max(1.0, num_training_steps - num_warmup_steps))
        )

    return LambdaLR(optimizer, lr_lambda, last_epoch)
...
    optimizer = torch.optim.AdamW(xxx)
    
    # dataloader
    train_dataset = MyDataset(xxx)
    train_dataloader = torch.utils.data.DataLoader(xxx)

    # S-TODO Define the 学习率 的 scheduler
    num_training_steps = len(train_dataloader) * args.num_train_epochs
    num_warmup_steps = int(0.1 * num_training_steps)  # 10% warmup
    scheduler = get_linear_schedule_with_warmup(optimizer, num_warmup_steps, num_training_steps)
...
训练代码
...
     # Backpropagate
     accelerator.backward(loss)
     optimizer.step()
     # 更新下一步的学习率
     scheduler.step() 
     optimizer.zero_grad()
...

https://discuss.huggingface.co/t/text-to-image-training-loss-becomes-nan-all-of-a-sudden/35224 ↩︎
https://datawhalechina.github.io/thorough-pytorch/%E7%AC%AC%E5%85%AD%E7%AB%A0/6.2%20%E5%8A%A8%E6%80%81%E8%B0%83%E6%95%B4%E5%AD%A6%E4%B9%A0%E7%8E%87.html ↩︎

多恩Stone

关注

18
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【炼丹经验积累（一）】梯度消失学习率自动调节附代码

（1）先 warm up，在前 1/10 个训练步中，学习率从 0 调节到设定的 1e-5。自动调节学习率的方式很多，本文先从最简单地尝试起来，即“线性调节”（2）再衰减，在后续的训练步中，线性地从 1e-5 逐渐减为 0。
复制链接

扫一扫