mmdetection版本:2.11.0
显存占用
跑起模型推理后实时监控显存占用
watch -n .5 nvidia-smi
推理速度
mmdetection/tools/test.py
看你的程序走的是single_gpu_test还是multi_gpu_test。在具体工程中,一般都是多卡训的,就算你是用的单卡来测速度和显存,也是走的multi_gpu_test。
if not distributed:
model = MMDataParallel(model, device_id=[0])
outputs = single_gpu_test(model, dataloader, args.tmpdir, args.show_score_thr)
else:
model = MMDataParallel(
model.cuda(),
devices_id=[torch.cuda.current_device()],
broadcast_buffers=False)
outputs = multi_gpu_test(model, data_loader, args.tmpdir, args.show_score_thr)
*mmdetection/mmdet/apis/test.py
以multi_gpu_test为例。
找到:
result = model(return_loss=False, rescale=True, **data)
改为:
torch.cuda.synchronize()
start = time.time()
result = model(return_loss=False, rescale=True, **data)
torch.cuda.synchronize()
end = time.time()
print(end - start, "s")
单位为秒s。
因为pytorch中程序的执行是异步的,因此
torch.cuda.synchronize()
是必须加的,要不然结果会有问题。