RuntimeError: NCCL error in:XXX,unhandled system error, NCCL version 2.7.8
1.问题pytorch 分布式训练中遇到这个问题,2.原因大概是没有启动并行运算???(有懂得大神请指教)3.解决方案(1)首先看一下服务器GPU相关信息进入pytorch终端(Terminal)输入代码查看pythontorch.cuda.is_available()#查看cuda是否可用;torch.cuda.device_count()#查看gpu数量;torch.cuda.get_device_name(0)#查看gpu名字,设备索引默认从0开始;torch.cuda.cu
原创
2021-08-30 16:51:17 ·
10356 阅读 ·
0 评论