加上一个CUDA_VISIBLE_DEVICES=0,2就行了,使用0卡和2卡跑模型,注意多卡有时候比单卡慢,4090无NVlink,数据似乎是通过串行的方式传输到多个gpu的,只不过单个gpu是并行计算,数据在gpu与gpu之间似乎是串行传输的,如果第一个卡的显存实在是太过于紧张,只有几十mb可用也可能导致cuda out of memory!
指定0卡和2卡
CUDA_VISIBLE_DEVICES=0,2 python main.py
指定2卡
CUDA_VISIBLE_DEVICES=2 python main.py
----->
确保CUDA可用,安装了与cuda对应的pytorch
import torch
print(torch.cuda.is_available())