- 博客(1156)
- 收藏
- 关注
原创 ATan算子导致mindspore不能把ckpt模型转化为onnx,有没有等效的办法?
这个是我的源码,如果换成ASin算子,还是不行,如果用数学公式替换,误差太大,有没有别的等效办法?这是错误细节:main()
2026-01-22 11:27:31
339
原创 MindSpore Transformers 1.5.0 安装报错求助!
正在容器中安装MindSpore Transformers 1.5.0 安装教程参考从源码编译,本地对应版本的MindSpore和CANN都正常安装且可以执行验证任务MindSpore Transformers 1.5.0安装后,按照文档说明进行检验,此刻出现如下报错:原因似乎是缺乏华为云上的一个组件moxing,但是我pip install moxing并未找到对应模块,也没有看到官方给出安装教程,请问这个问题如何解决。
2026-01-22 11:17:47
142
原创 MindSpore项目推理镜像(docker)无法下载的问题
在进行“MindSpore-Lab/Qwen3-Next-80B-A3B-Thinking”模型推理时,遇到了docker镜像无法下载的问题。就报错情况看,可能是该镜像的下载需要先进行登录。未登录的用户无权限拉取镜像!参考文档:Docker镜像链接:docker pull。
2026-01-22 11:14:41
191
原创 ARM架构上 pip安装MindSpore报错: Could not find a version that satisfies the requirement ?
ARM架构上 pip安装MindSpore报:估计是因为pip版本低于19.3。尝试执行将环境中的pip升级到19.3以上,重新安装MindSpore试试。
2026-01-22 11:10:01
168
原创 升级 CANN 7.0 后MindSpore 2.2 模型无法加载
摘要:升级CANN 7.0后出现MindSpore 2.2模型不兼容问题,报错"Unsupported model version"。解决方案需升级MindSpore至2.3+并重新导出模型:1)安装MindSpore 2.3.1;2)通过export_model.py脚本从.ckpt重新导出为.om格式。导出过程包括加载检查点参数、初始化网络结构并使用export函数转换格式。该问题源于CANN 7.0对模型版本和格式的新要求。(149字)
2026-01-22 11:05:28
292
原创 求助华为昇腾Atlas 200I DK A2安装MindSpore
openEuler 22.03系统,安装MindSpore框架,适配人脸推理模型,完成摄像头接入,但是找好久都没有找相应版本的固件驱动啥的。
2026-01-22 11:03:34
126
原创 onnx算子精度是fp32,使用atc转换om后都变为fp16,精度降低了,即使使用--precision_mode=force_fp32,也无法保持原精度,如何保持原精度?
摘要:在将ONNX模型转换为OM格式时,即使使用--precision_mode=force_fp32参数,算子精度仍从FP32降为FP16。解决方法是通过混合精度模式,在ATC转换命令中指定--precision_mode=allow_mix_precision,并配合--op_precision_mode参数锁定关键算子(如MatMul、Conv、Gemm)强制保持FP32精度。具体命令示例展示了如何为不同算子单独设置精度模式。
2026-01-22 11:01:22
113
原创 MindSpore 分布式训练错误RuntimeError: HCCL AllReduce failed, device type of rank 0 is Ascend, rank 1 is CPU
【摘要】在MindSpore分布式训练中出现"HCCLAllReduce failed"错误,原因是设备类型不统一(部分节点使用Ascend,部分使用CPU)。解决方法包括:1)确保所有rank使用相同设备类型;2)检查NPU状态和CANN版本一致性(通过npu-smi info和version.info命令);3)统一安装CANN 7.0.RC1版本;4)训练前正确初始化HCCL环境(执行set_env.sh)。关键点在于保证所有计算节点的硬件环境和软件版本完全一致。
2026-01-22 10:52:28
212
原创 静态图模式(Graph Mode)下的语法限制与调试
摘要:MindSpore从PyNative模式切换到Graph模式报错的常见原因包括:1)在construct函数中使用第三方库如numpy;2)动态控制流中对列表/字典的不规范操作;3)变量类型和Shape无法静态推导。建议先在PyNative模式验证代码,再检查construct函数是否包含不支持的Python原生操作或打印语句。Graph模式对Python语法有严格限制,需确保代码可编译为计算图IR。
2026-01-22 10:49:17
150
原创 MindSpore 混合精度训练中 amp_level 参数的选择
使用或时,O0、O1、O2、O3 四种混合精度模式具体有什么区别?推荐在昇腾上使用哪种?
2026-01-09 17:19:51
117
原创 关于 MindSpore 与 CANN 包及 Ascend 驱动的版本匹配机制
在昇腾 910 环境下安装 MindSpore,如何确保 Driver、Firmware、CANN 和 MindSpore 版本的严格兼容?
2026-01-09 17:18:46
328
原创 MindSpore使用Graph模式(set_context(mode=GRAPH_MODE))运行网络,发现第一次运行非常慢,且只要输入Shape改变就会重新编译
在MindSpore中使用Graph模式()运行网络,发现第一次运行非常慢,且只要输入Shape改变就会重新编译,如何优化?
2026-01-09 17:14:07
257
原创 在MindSpore中通过Custom原语调用Ascend C编写的算子时,如何正确配置func_type和bprop以支持反向传播?
在MindSpore中通过Custom原语调用Ascend C编写的算子时,如何正确配置func_type和bprop以支持反向传播?
2026-01-09 17:12:35
176
原创 MindSpore 在昇腾上模型推理延迟突增且波动大,同配置 GPU 推理稳定
把 ResNet101 分类模型迁移到昇腾设备做推理,同样用 batch_size=16 的配置,GPU 推理延迟稳定在 8ms 左右,但昇腾上延迟均值达到 28ms,且波动范围在 15-40ms 之间,推理性能和稳定性都差了不少。想请教大家:1)这种昇腾推理延迟突增且波动大的情况,常见诱因有哪些?2)MindSpore 有没有针对昇腾模型推理的性能调优参数(比如算子并行、内存分配策略)可以尝试?
2026-01-09 17:07:42
173
原创 MindSpore 模型推理结果与 PyTorch 偏差过大
将 PyTorch 训练的 BERT-base 文本分类模型迁移到 MindSpore 2.3.0 环境后,用相同测试集(1000 条样本)推理时,准确率从 89.2% 骤降至 61.5%,且预测标签与 PyTorch 结果的不一致率达 35%,排除了数据预处理差异的影响。仍未定位到精度偏差的核心原因,想请教大家:这种跨框架迁移后的精度大幅下降,可能是哪些因素导致的?(比如数据类型、算子实现差异、权重转换精度损失?)有没有 MindSpore 专属的精度调试工具(如梯度 / 中间输出对比工具)可以推荐?
2026-01-09 17:05:51
186
原创 MindScope Transformers执行Qwen3推理 图编译失败求助
环境:容器内,Ascend 910B3单卡软件栈版本:MindFormers version: 1.7.0, MindSpore version: 2.7.1,Ascend-cann-toolkit version: 8.1.RC1,Ascend driver version: 23.0.6安装与检验教程:MindSpore参考了https://www.mindspore.cn/install/, 且两个验证均通过;
2026-01-09 16:59:11
299
原创 安装MindSpore Transformers找不到组件moxing
在容器中安装MindSpore Transformers 1.5.0 安装,教程参考 https://www.mindspore.cn/mindformers/docs/zh-CN/r1.5.0/quick_start/install.html 从源码编译,本地对应版本的MindSpore和CANN都正常安装且可以执行验证任务MindSpore Transformers 1.5.0安装后,按照文档说明进行检验,此刻出现如下报错:原因似乎是缺乏华为云上的一个组件moxing,但是我pip install mo
2026-01-09 16:54:13
268
原创 模型在静态图模式下运行正常,但切换到动态图模式后出现内存持续增长
摘要:用户在使用MindSpore 2.0进行图像分割训练时,发现动态图模式下出现内存持续增长导致OOM的问题。通过简化模型结构(仅保留卷积和ReLU)、调整参数及检查数据预处理均无法解决,而相同结构在PyTorch中运行正常。分析认为可能是MindSpore动态图模式下的内存管理或梯度缓存问题,建议通过极简脚本复现、启用profiling工具、检查代码引用及版本升级等方式排查。特别指出Python容器持有Tensor引用、Callback缓存数据等常见诱因,并推荐将可复现案例提交官方以帮助定位底层问题。
2026-01-09 16:49:53
535
原创 Mindnlp v0.5.0 无法导入`engine`包
MIndnlp v0.5.0无法导入engine,不能存在mindnlp.engine路径无法导入TrainingArguments, Trainer、TrainerCallback, TrainerState, TrainerControl类,源代码中只有`transformers 包。
2025-12-12 16:29:17
216
原创 在华为云创建的notebook,镜像为ms2.7.1-cann8.2rc1:v3,之后安装mindyolo一直报numpy版本冲突
降级numpy后,opencv又版本冲突了。
2025-12-12 16:27:04
255
原创 香橙派AI pro 8tops CANN 8.2.RC1 安装MIndSpore2.7.1、2.7.0、2.6.0失败
开发板是香橙派AI pro 8tops (16g)固件版本25.2.0,芯片310B4目前安装 mindspore 2.7.1、2.7.0、2.6.0都没有通过检测2.6.0的报错如下CANN 通过 `./Ascend-cann-kernels-310b_8.2.RC1_linux-aarch64.run –upgrade ` 从8.0.0更新到 8.2.RC1,也安装了 8.2.RC1 的 kernels。
2025-12-12 16:25:11
165
原创 使用昇腾训练和CPU训练有所差异
昇腾设备训练似乎和CPU训练有所差异,使用mindspore在昇腾训练时,对于分类任务,不支持mindspore.int64,但是CPU上没有这个问题。而且在使用全零初始化权重的情况下,二者收敛速度差异较大,在昇腾上收敛速度远快于CPU,为什么会有这种情况?还有就是推理时mindspore-lite默认使用float32还是float16?
2025-12-12 16:04:10
162
原创 Mindspore compression API无法使用
整个mindspore可以import,但无法import compression的Pruner是为什么?
2025-12-12 15:54:11
182
原创 MindSpore算子编译问题Pattern match failed in rewrite pass
在基于MindSpore框架开发点云处理模型时,我在自定义三维卷积算子的编译环节遇到了持续性的技术挑战。该算子在昇腾910环境中使用AKG编译器进行编译时,频繁出现IR转换失败的问题,错误信息仅提示"Pattern match failed in rewrite pass",缺乏具体的定位指引,使得调试工作变得相当困难。经过多次尝试,我改用TeLang重写算子描述后,编译通过率从最初的35%提升至62%,但在处理特定形状的输入张量(如[1,512,64])时仍然会触发段错误。
2025-12-11 14:58:49
622
原创 MindSpore网络编译问题BuildModel error 134
MindSpore 2.2.10+Ascend 910环境,同一份网络定义在GPU侧能完整跑通,切到Ascend后端就卡在GraphCompile阶段,日志只吐一行“BuildModel error 134”,把MS_SUBMODULE_LOG_v调到DEBUG、export GLOG_v=3、打开DUMP_GE_GRAPH、DUMP_OP_DEBUG,文件夹里依旧只有空白json;
2025-12-11 14:56:52
632
原创 MindSpore报错求助No kernel found for [MyCustomOp] in device GPU
我已经按照 MindSpore 的规范,成功实现了一个自定义算子(一个名为MyCustomOp的 element-wise 操作),并且在 CPU 后端上能够正常编译和运行。
2025-12-11 14:50:11
732
原创 RotatE模型推理报错:Build failed
按照代码仓教程,跑RotatE模型推理报错:Build failed完整日志:2self.run()
2025-12-11 14:46:39
587
原创 模型训练报错:The 2-th argument type ‘RowTensor’ is not supported now
训练rotateE模型,使用embedding异构会报RuntimeError。
2025-12-11 14:45:09
168
原创 使用华为云notebook的jupyterlab运行程序,只能运行一个文件的程序,再运行另一个程序会报错
使用华为云notebook的jupyterlab运行程序,每次为什么只能运行一个文件的程序,在运行另一个程序之后就会报错,提示。
2025-12-11 14:43:33
171
原创 模型训练时报错“NotImplementedError: Cannot convert a symbolic Tensor to a numpy array”
模型训练时报错“NotImplementedError: Cannot convert a symbolic Tensor to a numpy array”
2025-12-05 16:00:52
341
原创 使用容器转换ONNX模型到MINDIR失败
使用ascendai/cann:8.2.rc1-310p-openeuler24.03-py3.11镜像部署模型转换容器(dockerhub上下载的,不确定是否是官方提供),在无显卡离线环境和有显卡环境均部署过,都转换失败,在有显卡环境同时宿主机已经安装完整的cann包和相关工具,并且在创建容器时候并使用了-e ASCEND_VISIBLE_DEVICES=1配置,然后使用命令:转换成功。
2025-12-05 15:58:59
207
原创 昇思框架数据处理问题The pointer[auto_grad_cell_ptr_] is null
建议你将 自定义数据集中使用 Tensor / nn / ops 类型 替换成相应的 numpy 操作,然后再试一下。
2025-12-05 15:52:18
539
原创 Mindspore验证安装报错
根据官方文档在安装mindspore的时候进行到最后一步验证是否安装成功时候报错了,求大佬解答,具体报错信息如下:我当前安装的是最新版本的CANN两个包Ascend-cann-kernels-310b_8.3.RC1.alpha003_linux-aarch64.run与Ascend-cann-toolkit_8.3.RC1.alpha003_linux-aarch64.run。
2025-11-21 11:34:37
362
原创 在昇思大模型平台上微调qwen3-32B模型,单机多卡信号同步失败 Sync run failed
在昇思大模型平台上,进行微调qwen3-32B,第一次运行时,报loss节点找不到;下午重新启动平台,报错多卡信号同步失败,早上的那个错误没有了。具体信息如下:_op()
2025-11-21 11:32:36
879
原创 MindSpore模型转换出现问题
硬件环境(Ascend/GPU/CPU): Ascend310MindSpore版本: mindspore=2.6执行模式(PyNative/ Graph):不限Python版本: Python=3.10操作系统平台: linux。
2025-11-21 11:30:46
686
MindSpore报错解决地图2022.10.21
2022-10-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅