【mindspore】【分布式训练】报错“Call rt api rtStreamSynchronize failed”

 MindSpore 多机多卡分布式训练,昇腾 910 芯片

同样的代码,在单节点8卡训练中不会报错,但是在4节点32卡中会报错 “Call rt api rtStreamSynchronize failed, ret: 507011”,这个错是在训练过程中的已经迭代了十几万步。

错误日志有提示到 “2) if interrupt in middle process of training, may check whether dataset sending num and network training num mismatch.”,但是我传的数据迭代数应该是远大于停止的迭代数。

传入的迭代数是根据数据迭代器ds计算的,即 actual_iteration_num = int(epoch_num * ds.get_dataset_size()/ callback_size),这个数大概是 628256,产生报错的迭代数大概为129200。所以感觉应该不是数据发送数与训练迭代数不匹配?

model = Model(network=pangu_alpha_with_grads, eval_network=eval_net, metrics={"CodeEvalMetric": CodeEvalMetric()})
model.train(actual_iteration_num, ds, callbacks=callback, sink_size=callback_size, dataset_sink_mode=True)

*******************************************************************************************************************

请问下是否是所有卡都报 call rt api rtStreamSynchronize failed

1. 报错的原因

- 可能是其他卡因为异常情况挂了:例如保存ckpt的时候,或者存在计算执行出错

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值