【问题解决与原理解释】Attempting to unscale FP16 gradients.

最新推荐文章于 2024-12-19 10:28:14 发布

多恩Stone

最新推荐文章于 2024-12-19 10:28:14 发布

阅读量4k

点赞数 25

分类专栏： AIGC 科研 Diffusion 文章标签：人工智能 python stable diffusion pytorch 计算机视觉 AIGC aigc

本文链接：https://blog.csdn.net/weixin_44212848/article/details/141301302

版权

AIGC 同时被 3 个专栏收录

93 篇文章

订阅专栏

Diffusion

56 篇文章

订阅专栏

科研

44 篇文章

订阅专栏

在使用 accelerate 训练模型时遇到以下报错，其实本质是没有理解训练过程中的各种精度设置的原理，本文将从浮点数精度类型、模型精度、混合精度训练、梯度和精度的关系等基础概念进行解释。

模型精度与训练

Attempting to unscale FP16 gradients.
...  File "/paht/to/main.py", line 587, in main
    optimizer.step()
  File "/paht/to/main.py", line 605, in <module>
    main()
  File "/paht/to/main.py", line 88, in _run_code
    exec(code, run_globals)
  File "/paht/to/main.py", line 198, in _run_module_as_main (Current frame)
    return _run_code(code, main_globals, None,
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
ValueError: Attempting to unscale FP16 gradients.

1. 浮点数精度类型

在深度学习中，我们主要使用三种浮点数精度：

float32 (单精度): 32位浮点数，提供较高的精度和较大的数值范围。
float16 (半精度): 16位浮点数，占用更少的内存，但精度和数值范围都较小。
bfloat16 (脑浮点数): 16位浮点数的一种变体，在精度和float32更接近，但仍然只占用16位。

2. 模型精度

模型精度指的是模型参数和计算过程中使用的数值精度：

较高的精度（如float32）可以提供更准确的计算结果，但会占用更多内存和计算资源。
较低的精度（如float16）可以减少内存使用和加速计算，但可能会影响模型的准确性。

3. 混合精度训练

混合精度训练是一种在训练过程中同时使用不同精度的技术。

通常，在前向传播和反向传播中使用低精度（如float16）；
而在参数更新和累积中使用高精度（float32）。

这样可以在保持模型精度的同时，提高训练速度和减少内存使用。

4. 梯度和精度的关系

梯度是模型参数相对于损失函数的偏导数。在反向传播过程中，梯度的计算和累积非常重要：

梯度计算：在混合精度训练中，梯度通常以低精度（如float16）计算，以加速反向传播过程。
梯度累积：由于 float16 的数值范围有限，直接累积 float16 梯度可能导致上溢或下溢。因此，通常会使用 float32 来累积梯度。
梯度缩放：为了防止梯度消失，常常使用梯度缩放技术。这涉及在反向传播前将损失乘以一个缩放因子，然后在参数更新前将梯度除以这个因子。

5. “Attempting to unscale FP16 gradients” 错误与解决方案

这个错误通常出现在使用 PyTorch 的自动混合精度（AMP）功能时。它表明系统试图对FP16（float16）格式的梯度进行 unscale 操作，这是不允许的。正确的做法是：

以 float16 计算梯度
将梯度转换为 float32
对 float32 格式的梯度进行 unscale 操作
使用 unscale 后的 float32 梯度更新参数

解决方案：

检查训练代码中，是否有设置 dtype=torch.float16 等精度，并统一 models 每个模块中算出来的梯度的精度是否一致。
- 可以参考下放代码，打印出模型中各层参数的梯度，看看精度情况。
如果精度问题解决后，还出来 OOM 的话，就只能进一步降低精度。

  # Backpropagate
  accelerator.backward(loss)
                
  # S-TODO
  for name, param in models.named_parameters():
      if param.grad is not None:
          print(f"Gradient for {name}: dtype={param.grad.dtype}, max={param.grad.max()}, min={param.grad.min()}")
  # S-TODO End
  optimizer.step()
  optimizer.zero_grad()