最近用caffe多GPU联调时遇到问题,如果正常用caffe的多gpu训练而不加初始化模型,末尾加--gpu=0,1
,不会有问题;然而当用pretrained模型finetune网络时,如--weights=xxx.caffemodel
,则会报如下错误:
Multi-GPU execution not available - rebuild with USE_NCCL
提示nccl没有安装,于是百度了一下,需要下载nccl源码安装,然后就是修改caffe的编译选项。由于我用的make编译的,需要该2个地方:
1.在Makefile.config文件中加
USE_NCCL := 1
INCLUDE_DIRS += /home/xd133/nccl/build/include
LIBRARY_DIRS += /home/xd133/nccl/build/lib
2.在Makefile中加
ife