【Ascend300t产品】【分布式训练功能】Model_zoo上的脚本多卡无法训练,单卡训练出现告警

1. 环境介绍

服务器:Taishan2280

OS:Euler 2.8

Mindspore版本:1.1.0

模型选择:SSD

已安装软件包:

A300t-9000-mcu_2.0.8.hpm

A300t-9000-npu-driver_20.2.0.b070_euleros2.8-aarch64.run

A300t-9000-npu-firmware_1.76.22.1.220.run

Ascend-cann-toolkit_20.2.rc1_linux-aarch64.run

SSD模型训练不能双卡同时训练

问题1:run_distribute_train.sh 执行没有效果

问题2:NPU卡指定IP时显示ip冲突

问题3:/etc/hccl.conf 文件为空导致 rank*.json文件无法生成

SSD模型单卡训练时,会有诸多告警,可以训练成功

解答:

单卡训练时的warning是正常现象,从日志看提示MindSpore和Ascend的版本不匹配,但MindSpore前向兼容所以可以正常执行。

多卡问题2指定IP具体使用的是什么指令,/etc/hccn.conf为空可能由于指定IP失败

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
这个问题可以从多个方面考虑进行回答。首先,需要了解300t数据量的详细情况,包括数据类型、数据读写频率、数据安全性要求等。然后,再考虑服务器数量的分配。 如果300t数据量属于冷数据或者访问频率不高的数据,可以考虑将数据分散在不同的服务器上。例如,可以将数据按照某种规则进行分片,每个服务器存储其中一部分数据,这样每个服务器上的数据量相对较小,能够更好地支持数据的访问和查询。 如果300t数据量属于热数据或者访问频率很高的数据,可以将数据进行冗余存储,以提高数据的可用性和容错性。可以将数据分散在多台服务器上,每台服务器存储数据的一个副本,当其中一台服务器发生故障时,可以快速切换到其他服务器上,保证数据的连续性和可用性。 此外,还应该考虑服务器的硬件配置和网络带宽。服务器的硬件配置应该能够满足数据的存储、访问和计算需求,包括存储空间、内存、处理器等。网络带宽需要保证服务器之间的数据传输速度和数据的访问响应时间。 最后,还需考虑数据的备份和灾备方案。对于重要的数据,应考虑定期进行数据备份,以防止数据丢失或损坏。同时,也需要制定灾备方案,确保在服务器发生故障或灾害时能够迅速恢复数据和系统。 综上所述,针对300t数据量,可以通过分散数据、冗余存储、硬件配置和网络带宽的优化以及数据备份和灾备方案的制定来合理分配5台服务器。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值