报错解决：RuntimeError: CUDA error: out of memory CUDA kernel errors

最新推荐文章于 2025-03-25 09:44:32 发布

zzz_979

最新推荐文章于 2025-03-25 09:44:32 发布

阅读量4.3k

点赞数 4

分类专栏： bug解决文章标签：人工智能 linux 深度学习

本文链接：https://blog.csdn.net/weixin_48018951/article/details/131872136

版权

bug解决专栏收录该内容

9 篇文章

订阅专栏

报错现象

在device为CUDA的情况下，运行多个程序的时候，可能会遇到如下报错

RuntimeError: CUDA error: out of memory CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect. For debugging consider passing CUDA_LAUNCH_BLOCKING=1.

分析原因

程序默认都在同一个卡上跑，所以会出现内存不足的情况

解决

在代码开头加上如下代码，为该代码的运行指定一个可用的卡

import os
os.environ['CUDA_VISIBLE_DEVICES'] = '1'

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

zzz_979

关注关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

解决RuntimeError: CUDA error: out of memory

CSDN 精品推荐

02-21

2485

显卡被占用：当存在多个显卡时，默认使用 0 号显卡。即使 1 号显卡空闲，但如果 0 号显卡被占用，仍然会导致报错。在使用 PyTorch 中加载模型时，出现 CUDA 错误: out of memory。根据具体情况，采取上述解决办法中的一种或多种来解决 CUDA 错误: out of memory 问题。解决办法：可以让其他显卡不可见，从而使 0 号显卡变为空余的 1 号显卡。CUDA 显存不足：可能是因为当前显卡显存不足。解决办法：考虑更换显存更大的显卡。

RuntimeError: CUDA error: out of memory——torch死了？

NLP与推荐算法

12-25

2187

GPU太差了，两个1080Ti跑不起来resnet50？？？告诉我占满了，这真是大笑话了。两个卡瞬间占满了，然后就死了，卧槽，真是人生艰难啊！！！我想要个好点的服务器啊！！！！卡多，盘大！！！ ...

参与评论您还未登录，请先登录后发表或查看评论

【Pytorch】已解决RuntimeError: CUDA error: invalid device ordinalCUDA kernel errors might be asynchronou

m0_56408077的博客

02-22

666

RuntimeError: CUDA error: invalid device ordinal”错误一般是由CUDA设备编号无效引起的。当我们运行的设备数量小于我们指定的设备编号时，就会出现这个错误。或分布式数据并行（DDP），需要注意模型会以。这时，加载模型后要移除。

RuntimeError: CUDA error: device-side assert triggeredCUDA kernel errors might be asynchronously re

热门推荐

地中海の养成记

01-31

6万+

1. 问题2. 分析3. 解决 1. 问题训练模型时报错： RuntimeError: CUDA out of memory. Tried to allocate 128.00 MiB (GPU 0; 2.00 GiB total capacity; 1.49 GiB already allocated; 57.03 MiB free; 6.95 MiB cached) 2. 分析这种问题，是GPU内存不够引起的 3. 解决方法一：换高性能高显存的显卡方法二：修改代码报错的训练代码为.

【报错解决】RuntimeError: CUDA error: out of memory（已解决）

weixin_44502754的博客

03-29

2831

【报错解决】RuntimeError: CUDA error: out of memory（已解决）

【已解决】RuntimeError: CUDA error: out of memoryCUDA kernel errors | 选择指定服务器跑模型

joyirine的博客

11-06

5558

RuntimeError: CUDA error: out of memoryCUDA kernel errors

RuntimeError: CUDA error: out of memory CUDA kernel errors might be asynchronously问题解决

goodgoodstudy___的博客

12-25

4820

CUDA kernel errors might be asynchronously

pytorch模型提示超出内存RuntimeError: CUDA out of memory.

01-20

跑模型时出现RuntimeError: CUDA out of memory.错误查阅了许多相关内容，原因是：GPU显存内存不够简单总结一下解决方法：将batch_size改小。取torch变量标量值时使用item()属性。可以在测试阶段添加如下代码： with torch.no_grad(): # 停止自动反向计算梯度参考： https://wisdomai.xyz/tool/pytorch/archives/2301 https://ptorch.com/news/160.html 作者：菜叶儿掉啦

【yolo系列：运行报错RuntimeError: CUDA error: an illegal memory access was encountered CUDA kernel errors m】

weixin_47869094的博客

09-06

6473

使用yolov7训练数据集，但是训练到一半就开始停止了并且报错。

RuntimeError: CUDA error: out of memoryCUDA kernel errors might be asynchronously reported at some

Yao_Wan的博客

09-17

1480

可是我明明前几天刚用过啊，啥也没改就突然报错了，怎么想也不可能是机器突然显存不行了吧。而且我喵喵的就是用的学校该死的服务器！就是在文件里加入“torch.backends.cudnn.enabled=False”这行代码。这个指令其实加到哪里都行，主要是关闭cudnn加速的。找到了解决办法，我哭了家人们，太搞我心态了。下图就是历经千辛万苦我终于能运行了。不过我感觉关了也没感觉怎么慢。突然有一次运行就出现这个错误。反正我加到了下图这个位置。搜了半天，看到有个大佬。

关于RuntimeError: Cannot re-initialize CUDA in forked subprocess和CUDA error: initialization error的解决

狂小虎/Anthony Dave的博客 KuangXiaoHu's Blogs

09-27

2892

最近小虎在cpu上试跑了detection任务的程序没什么问题，但是在gpu上运行时发生了关于cuda的一些报错，发现解决问题的精华就一句话。下面给出问题解决的例子和代码。

RuntimeError: CUDA error: out of memoryCUDA

weixin_64064486的博客

03-03

1万+

就是当网络参数什么都没有问题了，而且batch_size已经是最小了，还是出现以了问题但据我遇到的RuntimeError: CUDA error: out of memoryCUDA，其实有两种，第一种就是如下 RuntimeError: CUDA out of memory. Tried to allocate 338.00 MiB (GPU 0; 2.00 GiB total capacity; 842.86 MiB already allocated; 215.67 MiB free;

RuntimeError: CUDA error: out of memory

xin_yan_tang的博客

10-28

722

RuntimeError: CUDA error: out of memory

RuntimeError: CUDA error: out of memory CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect. For debugging consider passing CUDA_LAUNCH_BLOCKING=1.

03-08

### 解决 CUDA 内存不足错误当遇到 `RuntimeError: CUDA error: out of memory` 错误时，这通常意味着 GPU 显存不足以支持当前的任务需求。为了有效处理这一问题并确保程序稳定运行，可以采取多种策略。 #### 调试方法传递环境变量 `CUDA_LAUNCH_BLOCKING=1` 可以帮助定位异步报告的 CUDA 内核错误位置[^1]。此设置使得每个 CUDA 操作同步执行，从而简化了调试过程中的堆栈跟踪分析。通过这种方式，开发者能够更精确地找到引发内存溢出的具体操作。 #### 减少显存占用的方法 - **降低批量大小**：减少输入数据批次的数量可以直接减小模型所需的临时存储空间。 - **优化模型结构**：精简网络层数量或参数规模有助于缓解资源紧张状况；考虑采用轻量化架构替代复杂模型。 - **启用混合精度训练 (Mixed Precision Training)**：利用 FP16 数据类型代替部分计算中的 FP32 类型，在不影响最终效果的前提下节省大量显存开销[^2]。 ```python from torch.cuda import amp scaler = amp.GradScaler() for data, target in train_loader: optimizer.zero_grad() with amp.autocast(): output = model(data) loss = criterion(output, target) scaler.scale(loss).backward() scaler.step(optimizer) scaler.update() ``` - **清理未使用的张量对象**：及时释放不再需要的 PyTorch Tensor 对象，并调用 `torch.cuda.empty_cache()` 来手动清除缓存，以便回收可用显存。 ```python del tensor_variable # 删除不必要的tensor import gc; gc.collect() # 执行垃圾收集 torch.cuda.empty_cache() # 清除GPU上的缓存分配器 ``` #### 设置特定设备如果多块 GPU 卡共存，则应指定确切的目标卡号来避免默认选择带来的不确定性。例如： ```python device = torch.device('cuda:6' if torch.cuda.is_available() else 'cpu') model.to(device=device) # 将模型迁移到目标设备上 state_dict = torch.load(args.weights, map_location=device) model.load_state_dict(state_dict, strict=False) ``` 上述代码片段展示了如何强制加载权重文件至预定义编号为 6 的 GPU 上工作，而不是依赖于系统自动分配的结果[^3]。