PYTORCH_CUDA_ALLOC_CONF max_split_size_mb | Shell ( Linux ) 环境下的解决措施

最新推荐文章于 2024-07-29 03:34:01 发布

木星和一毛钱

最新推荐文章于 2024-07-29 03:34:01 发布

阅读量1w

点赞数 3

分类专栏：工具类文章标签： pytorch linux 人工智能

本文链接：https://blog.csdn.net/weixin_43968125/article/details/129286603

版权

工具类专栏收录该内容

3 篇文章 0 订阅

订阅专栏

当遇到PyTorch运行时的CUDA内存不足问题，可以检查并设置环境变量PYTORCH_CUDA_ALLOC_CONF的max_split_size_mb参数，以避免显存碎片导致的内存分配失败。通过计算reserved和allocated的差值，设置一个适当的小于该差值的值，例如6110MB，可以有效地管理GPU内存，防止内存碎片化。

摘要由CSDN通过智能技术生成

参考文献如下

[1] 通过设置PYTORCH_CUDA_ALLOC_CONF中的max_split_size_mb解决Pytorch的显存碎片化导致的CUDA:Out Of Memory问题
https://blog.csdn.net/MirageTanker/article/details/127998036
[2] shell环境变量说明
https://blog.csdn.net/JOJOY_tester/article/details/90738717

具体解决步骤

报错信息如下:

RuntimeError: CUDA out of memory. 
Tried to allocate 6.18 GiB (GPU 0; 24.00 GiB total capacity; 
11.39 GiB already allocated; 
3.43 GiB free; 17.62 GiB reserved in total by PyTorch) 
If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. 
See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

计算 reserved - allocated = 17.62 - 11.39 = 6.23 > 6.18 (暂且不用管如何来的，更多说明参考文献[1])

查看CUDA中管理缓存的环境变量

echo $PYTORCH_CUDA_ALLOC_CONF

设置环境变量的值（这里用到6.18这个数了，简单理解6.18表示缓存空间6.18GB）

export PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:6110

（6110的由来简单理解为6110MB，我们要选择比6.18GB小的最大空间，推荐直接设置为6.1*1000MB）

问题圆满解决，可喜可贺可喜可贺

木星和一毛钱

关注

3
点赞
踩
21

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录