torch1.7 以下版本在Windows下进行分布式训练会报错:
AttributeError: module ‘torch.distributed’ has no attribute ‘init_process_group’
报错原因:
torch1.7 以下版本不支持Windows下的分布式训练,在Linux内核才不会报这个错。
解决办法:
方法1:
换成Linux系统运行代码。。。(要是没有条件直接看 方法2)
方法2:
1)、将Windows下的 torch 换成 1.7.0及以上的版本。(1.5~1.8 版本的 torch 代码基本都兼容)
温馨提示:建议离线下载 torch1.7.1 版本,torchvision0.8.2 版本。
下载链接如下:
2)、更换torch版本之后,在Windows下运行之前,将 init_process_group 函数的参数更改为以下内容:
torch.