pytorch报错RuntimeError: CUDA out of memory

最新推荐文章于 2024-08-11 10:01:30 发布

fighting_!

最新推荐文章于 2024-08-11 10:01:30 发布

阅读量2k

点赞数

分类专栏： python 常见错误文章标签： python linux

本文链接：https://blog.csdn.net/weixin_46428351/article/details/118658390

版权

python 同时被 2 个专栏收录

17 篇文章 2 订阅

订阅专栏

常见错误

6 篇文章 1 订阅

订阅专栏

在复现大型代码时，使用PyTorch遇到CUDAoutofmemory错误。问题可能源于Batch-size过大、number_workers设置不当或梯度未释放。解决方案包括减小Batch-size、降低number_workers和使用with torch.no_grad()包裹无需计算梯度的代码块。实施这些修改后，成功避免了CUDA内存溢出的错误。

摘要由CSDN通过智能技术生成

pytorch报错RuntimeError: CUDA out of memory

最近我在复现一个大型代码，使用pytorch,总会出现报错CUDA out of memory的情况。原作者同时使用了几个GPU来跑，而因为硬件条件限制，我们教研室只有一个GPU，所以我总会遇到下边的错误：

RuntimeError: CUDA out of memory. Tried to allocate 823.88 MiB (GPU 0; 7.93 GiB total capacity; 6.96 GiB already allocated; 189.31 MiB free; 10.26 MiB cached)

通过百度结合自身所用到的，总结了一些解决方法。

1、首先可能是因为Batch-size设置过大，所以改小Batch-size，我直接设置Batch-size=1。

2、在测试时，就算Batch-size=1也还是会不停报错说CUDA out of memory，然后发现可能是因为number_workers大，于是我将其改小：默认改为10
在这里插入图片描述 3、也是在测试验证中常出现的，查看代码发现在测试时，梯度没有释放造成梯度累积，所以导致出现CUDA out of memory的错误。可以通过命令watch -n 0.1 nvidia-smi来查看GPU使用情况。解决办法就是对代码进行修改，加入：