1.背景
使用pytorch中的ddp训练模型的时候,由于程序报错,我反复运行py文件,导致显存不够
2. 解决方法
使用 nvidia-smi 命令(或者该fuser -v /dev/nvidia* )看有哪些进程,使用kill -9 PID
nvidia-smi
kill -9 PID
实际中,我先使用了 nvidia-smi +kill -9 PID,但是显存还是无法清理干净。故使用了fuser -v /dev/nvidia +kill -9 PID*
fuser -v /dev/nvidia*
kill -9 PID
3.参考
https://www.freesion.com/article/39066220/