程序运行过程中内存和显存一直增加

对于一个半路出家做深度学习的孩子来讲,最近从github上下载了一个代码,然后就开始改,改完之后搬到服务器上跑的时候发现我一个人跑一点事没有,但凡有其他人跟我一块跑,跑着跑着服务器就崩了,vscode、xshell都连不上了,别人也连不上服务器了,然后大家都不让我去服务器上跑了。我就开始找bug。

也不知道为什么,然后师兄说让我去看看显存(每隔2秒刷新一次)

watch -n 2 -d nvidia-smi 

发现运行过程中,显存一直在往上飙,在每个epoch之后加了一行清空显存的代码:

torch.cuda.empty_cache()

果然,显存没往上飙了,但是问题依旧没有解决,别人跟我一起在服务器上跑的时候,服务器还是会崩。师兄说那可能是内存的问题,然后我使用以下命令(每隔2秒刷新一次)去检查了下内存

watch -d free -m

发现这个内存使用也在飙升。

也不知道那里出了问题,没办法,只能从最原始的代码开始,一步一步修改成自己的代码,看哪里有问题。最后发现是因为我想把loss输出来,算出来loss之后,没有加item()

修改之后:

终于内存也没有一只飙升了!!!

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值