在运行convnext时产生报错,将batch_size降低到1后仍然报错
1 查看nvidia-smi GPU进程
nvidia-smi
红框中为GPU占用情况 (之前达到14000+时报错)
查询后使用方法:
import torch
torch.cuda.empty_cache()
运行多次释放空间,查看GPU进程发现没有改变,仍然无效.
更改策略:
1 .运行以下代码:
fuser -v /dev/nvidia*
发现僵尸进程(连号的):
2.查看具体GPU使用情况
pmap -d 62282
3.删除该进程
kill-9 62282
4.全部删除后检查: