mindspore【多机单卡分布式训练】使用指南求助,是否可以不用hccl

mindspore分布式训练。按照以下的指南。

https://www.mindspore.cn/tutorials/zh-CN/r1.5/intermediate/distributed_training/distributed_training_ascend.html

【操作步骤&问题现象】

1、用例/mindspore/ascend_resnet50_distributed/sample_code/distributed_training#

2、训练数据集:/cifar-10-batches-bin

3.请问是否需要hccl,不用的话可以进行两个单卡的机器之间的分布式训练吗?

4.请帮忙看一下下面的rank配置是否正确,多谢

device0:的/etc/hccn.conf

"

address_4=192.1.21.184
netmask_4=255.255.0.0

"

device1:的/etc/hccn.conf 

"

address_2=192.3.139.150
netmask_2=255.255.0.0

"

rank_table_2pcs.json文件内容如下:

解答:

1、基于ascend跑多卡一定要hccl。

2、rank_table配错了,device_id要求在0-1,1-2这样,0-1-2-3卡为一个域,4-5-6-7为一个域,2卡的话不允许跨域组网。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值