pytorch报错：RuntimeError: CUDA error: CUBLAS_STATUS_ALLOC_FAILED when calling `cublasCreate(handle)`

最新推荐文章于 2025-04-23 15:48:53 发布

xiangyong58

最新推荐文章于 2025-04-23 15:48:53 发布

阅读量7k

点赞数 2

分类专栏： Machine & Deep Learning 文章标签： pytorch 人工智能 python

本文链接：https://blog.csdn.net/xiangyong58/article/details/125766472

版权

Machine & Deep Learning 专栏收录该内容

78 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

在使用多GPU运行PyTorch时遇到RuntimeError，CUDA分配失败。问题可能由于增大了模型大小导致内存不足。通过减小batch_size，如从300调整为256，可以解决此问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题描述：

多GPU运行torchrun --nnodes 1 --nproc_per_node=4，运行环境正常且无变化；
仅修改了代码中Tensor变量的channel大小，增大了model的大小；
提交服务器，代码报错信息如下：

 File "/home/---/anaconda3/lib/python3.7/site-packages/torch/autograd/__init__.py", line 156, in backward
    allow_unreachable=True, accumulate_grad=True)  # allow_unreachable flag
RuntimeError: CUDA error: CUBLAS_STATUS_ALLOC_FAILED when calling `cublasCreate(handle)`
WARNING:torch.distributed.elastic.multiprocessing.api:Sending process 165592 closing signal SIGTERM
WARNING:torch.distributed.elastic.multiprocessing.api:Sending process 165593 closing signal SIGTERM
WARNING:torch.distributed.elastic.multiprocessing.api:Sending process 165594 clo