mindformers生成hccl json文件的时候报错

组件版本
mindspore2.1.1
CANN6.3.RC2_linux-aarch64
mindformersdev
硬件atlas 310I pro *2

用途,准备用这两张推理卡部署chatglm3,没有完整的教程,自己摸索,在基础组件安装完成后,准备生成hccl json文件的时候,执行

(ascend_py39) [root@xctest1 mindformers]# python ./mindformers/tools/hccl_tools.py --device_num "[0,8)" --server_ip=10.23.13.83
start /root/llm/mind/mindformers/./mindformers/tools/hccl_tools.py
visible_devices:['0', '1', '2', '3', '4', '5', '6', '7']
server_id:10.23.13.83
device_num_list: [0, 1, 2, 3, 4, 5, 6, 7]
/bin/sh: hccn_tool: command not found
Failed to call hccn_tool, try to read /etc/hccn.conf instead
Traceback (most recent call last):
  File "/root/llm/mind/mindformers/./mindformers/tools/hccl_tools.py", line 175, in <module>
    main()
  File "/root/llm/mind/mindformers/./mindformers/tools/hccl_tools.py", line 149, in main
    device_ip = device_ips[device_id]
KeyError: '0'
复制

请教下大佬这是什么问题,本地显卡只有两张

npu-smi info

****************************************************解答*****************************************************

mindformers

版本匹配关系

当前支持的硬件为Atlas 800训练服务器与Atlas 800T A2训练服务器。

所有纯推理的310大概率会遇到其他问题。

另外json随便修改下就行了

下面的ip改下 就行

{
    "version": "1.0",
    "server_count": "1",
    "server_list": [
        {
            "server_id": "10.*.*.*",
            "device": [
                {"device_id": "0","device_ip": "192.1.*.6","rank_id": "0"},
                {"device_id": "1","device_ip": "192.2.*.6","rank_id": "1"}],
             "host_nic_ip": "reserve"
        }
    ],
    "status": "completed"
}

  • 4
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值