PYTORCH_CUDA_ALLOC_CONF max_split_size_mb | Shell ( Linux ) 环境下的解决措施

当遇到PyTorch运行时的CUDA内存不足问题,可以检查并设置环境变量PYTORCH_CUDA_ALLOC_CONF的max_split_size_mb参数,以避免显存碎片导致的内存分配失败。通过计算reserved和allocated的差值,设置一个适当的小于该差值的值,例如6110MB,可以有效地管理GPU内存,防止内存碎片化。
摘要由CSDN通过智能技术生成

参考文献如下

[1] 通过设置PYTORCH_CUDA_ALLOC_CONF中的max_split_size_mb解决Pytorch的显存碎片化导致的CUDA:Out Of Memory问题
https://blog.csdn.net/MirageTanker/article/details/127998036
[2] shell环境变量说明
https://blog.csdn.net/JOJOY_tester/article/details/90738717

具体解决步骤

报错信息如下:

RuntimeError: CUDA out of memory. 
Tried to allocate 6.18 GiB (GPU 0; 24.00 GiB total capacity; 
11.39 GiB already allocated; 
3.43 GiB free; 17.62 GiB reserved in total by PyTorch) 
If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. 
See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF


计算 reserved - allocated = 17.62 - 11.39 = 6.23 > 6.18 (暂且不用管如何来的,更多说明参考文献[1])

查看CUDA中管理缓存的环境变量

echo $PYTORCH_CUDA_ALLOC_CONF


设置环境变量的值(这里用到6.18这个数了,简单理解6.18表示缓存空间6.18GB)

export PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:6110

(6110的由来简单理解为6110MB,我们要选择比6.18GB小的最大空间,推荐直接设置为6.1*1000MB)

问题圆满解决,可喜可贺 可喜可贺

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值