mindspore分布式训练。按照以下的指南。
https://www.mindspore.cn/tutorials/zh-CN/r1.5/intermediate/distributed_training/distributed_training_ascend.html
【操作步骤&问题现象】
1、用例/mindspore/ascend_resnet50_distributed/sample_code/distributed_training#
2、训练数据集:/cifar-10-batches-bin
3.请问是否需要hccl,不用的话可以进行两个单卡的机器之间的分布式训练吗?
4.请帮忙看一下下面的rank配置是否正确,多谢
device0:的/etc/hccn.conf
"
address_4=192.1.21.184
netmask_4=255.255.0.0
"
device1:的/etc/hccn.conf
"
address_2=192.3.139.150
netmask_2=255.255.0.0
"
rank_table_2pcs.json文件内容如下:
1、基于ascend跑多卡一定要hccl。
2、rank_table配错了,device_id要求在0-1,1-2这样,0-1-2-3卡为一个域,4-5-6-7为一个域,2卡的话不允许跨域组网。