解决AssertionError: No inf checks were recorded for this optimizer

最新推荐文章于 2023-12-20 10:05:15 发布

兔儿不想和你唠嗑�

最新推荐文章于 2023-12-20 10:05:15 发布

阅读量1.9k

点赞数 1

文章标签： python 深度学习

本文链接：https://blog.csdn.net/weixin_44904435/article/details/133877051

版权

解决AssertionError: No inf checks were recorded for this optimizer

在torch.cuda.amp.grad_scaler.py里面有这段注释

``scaler`` dynamically estimates the scale factor each iteration.  To minimize gradient underflow,
    a large scale factor should be used.  However, ``float16`` values can "overflow" (become inf or NaN) if
    the scale factor is too large.  Therefore, the optimal scale factor is the largest factor that can be used
    without incurring inf or NaN gradient values.

大概意思即float16会溢出，全部换成float32即可。

查看数据类型可通过

print(x.dtype)

将float16转换为float32，可通过to()函数

x = x.to(torch.float32)

我把代码里的embedding数据类型都输出一遍，全都改了，发现还是报错，才发现如果设置了trainer的这个yaml文件，也得改

trainer:
  max_steps: 100_000
  val_check_interval: 5000
  precision: 32    #这个原本是16，这会儿改成32即可运行

全文参考
链接: link.

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

兔儿不想和你唠嗑�

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

“No inf checks were recorded for this optimizer.“ AssertionError:错误解决

小姑仔的博客

03-19

5732

"No inf checks were recorded for this optimizer." 错误解决

Pytorch——报错解决：No inf checks were recorded for this optimizer.

Irving.Gao的博客

11-18

5541

报错解决：No inf checks were recorded for this optimizer.

参与评论您还未登录，请先登录后发表或查看评论

bug解决：AssertionError: No inf checks were recorded for this optimizer.

m0_52945258的博客

08-13

2497

然后发现自己用的混合精度训练，发现问题解决问题，谨此记录，方便查阅。

No inf checks were recorded for this optimizer

热门推荐

m0_74890428的博客

04-16

7万+

在运行pycharm项目的时候，出现了AssertionError: Torch not compiled with CUDA enabled，主要可以归结于以下两个个方面： 1、没有安装GPU版本的pytorch，只是使用清华的镜像地址下载了CPU版本的pytorch 2、安装的CUDA和安装的pytorch的版本不相互对应

scrcpy投屏 AssertionError: java.lang.reflect.InvocationTargetExcep

02-18

总的来说，解决"AssertionError: java.lang.reflect.InvocationTargetException"问题通常需要排查多个方面，包括软件版本、设备兼容性、驱动程序和权限设置等。根据描述，更换Scrcpy的特定版本可能是最直接有效的...

QLORA:量化LLMA的有效微调

AI浩

06-28

2965

我们提出了QLORA，这是一种有效的微调方法，它减少了内存使用，足以在单个48GB GPU上微调65B参数模型，同时保留完整的16位微调任务性能。QLORA通过冻结的4位量化预训练语言模型将梯度反向传播到Low RankAdapters (LoRA)中。我们最好的模型家族，我们命名为Guanaco，在Vicuna基准上优于之前所有公开发布的模型，达到ChatGPT性能水平的99.3%，而只需要在单个GPU上进行24小时的微调。

基于torch函数TransformerEncoder出现AssertionError问题的解决

小乖乖的臭坏坏

05-09

2172

在使用transformer model时，由于存在encoder-decoder,encoder-only,decoder-only三种结构以应对不同的task。当我们使用encoder-only时，必然会涉及到TransformerEncoder和TransformerEncoderLayer函数的调用。那么如下代码出现了AssertionError问题，应当如何解决？为什么会出现AssertionError（声明/断言）问题呢？可以看到，输入模型的第三维应该对应d_model这个参数，那么此处，

个人使用ChatGLM-6B遇到的部分问题汇总

weixin_48713918的博客

05-26

1万+

项目的github网址（https://github.com/THUDM/ChatGLM-6B）中有解决问题专用的Issues模块。建议遇到问题先将部分报错写在这里进行查询，大概率能找到问题的解决方法。本文章只用于记录个人在使用过程中遇到的问题，供以后回忆之用。以下都是在运行cli_demo.py遇到。推荐版本是4.27.1 ，但是好像不太行。以上修改完成后，我的程序就已经可以运行了。这里有多个问题需要解决。

pytorch 半精度，提升pytorch推理性能

jacke121的专栏

08-20

1万+

原生的torch是float32的，我们可以借鉴模型量化的思想将其变成float16，而且pytorch自身就定义了半精度的tensor 假设我训练的一个模型为model，我们在运算的时候直接将模型转成半精度的模型，怎么做的呢？直接使用model.half()就行 model.half() model.cuda() 假设我们有个float32的tensor的变量 img，为了使用半精度的模型，同样需要将其输入转成HalfTensor img=img.type(torch.HalfTensor).cud

混合精度训练原理之float16和float32数据之间的互相转换

Cheny1m的博客

10-25

2652

,它是一个不能在有限精度内存储的数据，根据上述float32的存储空间表示，我们知道它只能保存23位有效数字（不包含首位的1），截取后，他在计算机中的表示为【】（1），括号里面表示第11位有效位数值，用于进位，根据二进制加法，我们综合符号位和指数为，得到最后结果为：【】，由于他们的指数部分不相同，我们需要将指数较小的数据的小数点向左移，以保证他们的指数部分对齐，【】（所以在存取数字时是有损失的），舍入为float16时，计算的存储表示为【】后，小数点需要向左移4位，在左边补0，移位之后的结果为【

【4】数据类型转换、张量运算、数据格式转换

DBling1205的博客

08-24

3227

float\int等类型转换，张量基本运算，tensor/ndarrary/浮点数的转换

AssertionError: Fusion only for eval!

Sally9116的博客

04-24

443

今天跑一个量化算法的时候遇到了这个问题。没有搜到太多解决方式，最后把。

optimizer注意点

菜鸟起飞

12-02

2747

转载：https://blog.csdn.net/gdymind/article/details/82708920 重点是这句：注意，如果想要使用.cuda()方法来将model移到GPU中，一定要确保这一步在构造Optimizer之前。因为调用.cuda()之后，model里面的参数已经不是之前的参数了。以下是原文与优化函数相关的部分在torch.optim模块中，其中包含了大部分现在已有的流行的优化方法。如何使用Optimizer 要想使用optimizer，需要创建一个opt.

PyTorch Python API：Quantization || Intro

Mr_Menace的博客

11-11

3090

量化是一种以低于浮点精度的位宽，来执行张量的计算和存储的技术。量化过的模型对部分或全部 Tensor 使用整数，而不是浮点值来执行操作。这允许更紧凑的模型表示，并能在硬件平台上使用高性能 Tensor 运算。需要注意的是，目前 PyTorch 不提供 CUDA 上的量化算子的实现——也即不支持 GPU——量化后的模型将移至 CPU 上运行、测试。但是进行 QAT 时可以在 GPU 上运行。此外，PyTorch 还支持 QAT，该训练使用伪量化模块对前向和后向传递中的量化误差进行建模。

stat报错assert module.__class__ in self._origin_call AssertionError

06-08

这个错误通常是由于调用了assert语句而导致的。assert语句用于在程序运行时检查代码中的条件是否为真。如果条件不为真，则抛出AssertionError异常。在这种情况下，你可以检查你的代码并确认assert语句中的条件是否正确。如果条件是正确的，那么你需要检查你的程序的其他部分，看看是否有其他的问题导致了这个错误。如果你无法解决这个问题，你可以尝试使用try/except语句来捕获这个异常并进行处理。