torch.cuda.empty_cache()导致RuntimeError: CUDA error: out of memory.

之前使用torch.cuda.empty_cache()都不会出现问题,当修改了使用的显卡号就出现问题了。
在第一轮训练nvidia-smi看显存是够的,但是测试结束后开始第二轮训练就报错了。报错如下:

  File "train.py", line 64, in train
    torch.cuda.empty_cache()
  File "torch/cuda/memory.py", line 114, in empty_cache
    torch._C._cuda_emptyCache()
RuntimeError: CUDA error: out of memory

之前的经验一般是batch_size设置太大了,显存不够,导致训练的时候爆显存,而这次是因为释放显存而爆显存?很奇怪的操作。。。
后来才发现,在多卡训练的时候容易出现这个问题,单卡不会,因为torch.cuda.empty_cache()默认是给GPU0释放显存,而此时GPU0跑满了,无显存可以释放,就会导致显存溢出。
解决方法为:

with torch.cuda.device(device):
	torch.cuda.empty_cache()

device即你设置的显卡号,这样就不会出错了

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值