真服了,咱说就想跑个测试,无论怎么指定显卡,程序一跑起来都会在第0块显卡上占点内存。但是但是服务器0卡常年爆满啊,谁懂,真的很头秃。
试了很多方法,最终在这位大佬的文章里找到了解决办法。
原因:pytorch初始化时会默认在第0块显卡上进行,占用一定的显存(在torch/cuda/init.py:110
中,拷贝了部分代码过来)。导致在第0块显卡空闲内存不多时,程序会反复报Runtime Error的错。
我用的是第二种解决办法,指令运行前设置环境变量 (单卡、多卡均可)
在输入训练指令前加上CUDA_VISIBLE_DEVICES=x,y(x,y为要使用的显卡,可指定多个显卡),即设置环境变量,程序只“看得见”第x,y块显卡,就不会使用第0块显卡了。
CUDA_VISIBLE_DEVICES=x,y python train.py
需要注意的是,在设置环境变量之后,第x,y块显卡在程序的眼里就变成了第0,1...块显卡,在后续使用中需要注意序号的问题,即如果程序有使用GPU的指令要求,比如gpu_ids=xxx时,要将xxx改为0,1...以此类推,不然会出现invalid device ordinal的错误。