【无标题】

最新推荐文章于 2024-07-12 16:16:27 发布

大头花轮

最新推荐文章于 2024-07-12 16:16:27 发布

阅读量371

点赞数 6

文章标签： python pytorch 深度学习

本文链接：https://blog.csdn.net/weixin_44290367/article/details/139249188

版权

Loss出现NaN的情况

梯度值计算溢出

梯度裁剪

torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm)

输出/输入NaN情况

查看输入/输出是否含有NaN

torch.isnan(x).any()

值得注意的是，当模型参数包含nan时，输出会自然包含大量nan，这时可能不是模型中某个模块的计算问题。而是梯度回传的问题。

钩子注册

def check_grad_hook(grad):
    if torch.isnan(grad).any():
        print("NaN gradient found")

for layer in fr_module.modules():
    print(layer)
    layer.register_backward_hook(check_grad_hook)

梯度回传检查

    for name, param in fr_module.named_parameters():
        if param.grad is not None:  # 确保梯度存在
            if torch.isnan(param.grad).any():
                print(f"参数 {name} 的梯度包含NaN值")
            else:
                print(f"参数 {name} 的梯度正常")

梯度回传异常检测：

with torch.autograd.set_detect_anomaly(True):
	loss.backward()

此时会直接标记出回传中出现问题的代码行和Function，
如RuntimeError: Function ‘PowBackward0’ returned nan values in its 0th output.
即Pow幂运算出现错误。

踩坑记录:
rms_values = torch.sqrt(torch.mean(torch.abs(s_complex_batch)**2, dim=1, keepdim=True)) # 计算均方根

计算均方根时，torch.abs(s_complex_batch)**2也算幂运算，需要添加小epsilon常数