1. 环境介绍
服务器:Taishan2280
OS:Euler 2.8
Mindspore版本:1.1.0
模型选择:SSD
已安装软件包:
A300t-9000-mcu_2.0.8.hpm
A300t-9000-npu-driver_20.2.0.b070_euleros2.8-aarch64.run
A300t-9000-npu-firmware_1.76.22.1.220.run
Ascend-cann-toolkit_20.2.rc1_linux-aarch64.run
SSD模型训练不能双卡同时训练
问题1:run_distribute_train.sh 执行没有效果
问题2:NPU卡指定IP时显示ip冲突
问题3:/etc/hccl.conf 文件为空导致 rank*.json文件无法生成
SSD模型单卡训练时,会有诸多告警,可以训练成功
解答:
单卡训练时的warning是正常现象,从日志看提示MindSpore和Ascend的版本不匹配,但MindSpore前向兼容所以可以正常执行。
多卡问题2指定IP具体使用的是什么指令,/etc/hccn.conf为空可能由于指定IP失败