自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1156)
  • 收藏
  • 关注

原创 ATan算子导致mindspore不能把ckpt模型转化为onnx,有没有等效的办法?

这个是我的源码,如果换成ASin算子,还是不行,如果用数学公式替换,误差太大,有没有别的等效办法?这是错误细节:main()

2026-01-22 11:27:31 339

原创 MindSpore Transformers 1.5.0 安装报错求助!

正在容器中安装MindSpore Transformers 1.5.0 安装教程参考从源码编译,本地对应版本的MindSpore和CANN都正常安装且可以执行验证任务MindSpore Transformers 1.5.0安装后,按照文档说明进行检验,此刻出现如下报错:原因似乎是缺乏华为云上的一个组件moxing,但是我pip install moxing并未找到对应模块,也没有看到官方给出安装教程,请问这个问题如何解决。

2026-01-22 11:17:47 142

原创 MindSpore项目推理镜像(docker)无法下载的问题

在进行“MindSpore-Lab/Qwen3-Next-80B-A3B-Thinking”模型推理时,遇到了docker镜像无法下载的问题。就报错情况看,可能是该镜像的下载需要先进行登录。未登录的用户无权限拉取镜像!参考文档:Docker镜像链接:docker pull。

2026-01-22 11:14:41 191

原创 ARM架构上 pip安装MindSpore报错: Could not find a version that satisfies the requirement ?

ARM架构上 pip安装MindSpore报:估计是因为pip版本低于19.3。尝试执行将环境中的pip升级到19.3以上,重新安装MindSpore试试。

2026-01-22 11:10:01 168

原创 升级 CANN 7.0 后MindSpore 2.2 模型无法加载

摘要:升级CANN 7.0后出现MindSpore 2.2模型不兼容问题,报错"Unsupported model version"。解决方案需升级MindSpore至2.3+并重新导出模型:1)安装MindSpore 2.3.1;2)通过export_model.py脚本从.ckpt重新导出为.om格式。导出过程包括加载检查点参数、初始化网络结构并使用export函数转换格式。该问题源于CANN 7.0对模型版本和格式的新要求。(149字)

2026-01-22 11:05:28 292

原创 求助华为昇腾Atlas 200I DK A2安装MindSpore

openEuler 22.03系统,安装MindSpore框架,适配人脸推理模型,完成摄像头接入,但是找好久都没有找相应版本的固件驱动啥的。

2026-01-22 11:03:34 126

原创 onnx算子精度是fp32,使用atc转换om后都变为fp16,精度降低了,即使使用--precision_mode=force_fp32,也无法保持原精度,如何保持原精度?

摘要:在将ONNX模型转换为OM格式时,即使使用--precision_mode=force_fp32参数,算子精度仍从FP32降为FP16。解决方法是通过混合精度模式,在ATC转换命令中指定--precision_mode=allow_mix_precision,并配合--op_precision_mode参数锁定关键算子(如MatMul、Conv、Gemm)强制保持FP32精度。具体命令示例展示了如何为不同算子单独设置精度模式。

2026-01-22 11:01:22 113

原创 MindSpore 分布式训练错误RuntimeError: HCCL AllReduce failed, device type of rank 0 is Ascend, rank 1 is CPU

【摘要】在MindSpore分布式训练中出现"HCCLAllReduce failed"错误,原因是设备类型不统一(部分节点使用Ascend,部分使用CPU)。解决方法包括:1)确保所有rank使用相同设备类型;2)检查NPU状态和CANN版本一致性(通过npu-smi info和version.info命令);3)统一安装CANN 7.0.RC1版本;4)训练前正确初始化HCCL环境(执行set_env.sh)。关键点在于保证所有计算节点的硬件环境和软件版本完全一致。

2026-01-22 10:52:28 212

原创 静态图模式(Graph Mode)下的语法限制与调试

摘要:MindSpore从PyNative模式切换到Graph模式报错的常见原因包括:1)在construct函数中使用第三方库如numpy;2)动态控制流中对列表/字典的不规范操作;3)变量类型和Shape无法静态推导。建议先在PyNative模式验证代码,再检查construct函数是否包含不支持的Python原生操作或打印语句。Graph模式对Python语法有严格限制,需确保代码可编译为计算图IR。

2026-01-22 10:49:17 150

原创 MindSpore 混合精度训练中 amp_level 参数的选择

使用或时,O0、O1、O2、O3 四种混合精度模式具体有什么区别?推荐在昇腾上使用哪种?

2026-01-09 17:19:51 117

原创 关于 MindSpore 与 CANN 包及 Ascend 驱动的版本匹配机制

在昇腾 910 环境下安装 MindSpore,如何确保 Driver、Firmware、CANN 和 MindSpore 版本的严格兼容?

2026-01-09 17:18:46 328

原创 MindSpore使用Graph模式(set_context(mode=GRAPH_MODE))运行网络,发现第一次运行非常慢,且只要输入Shape改变就会重新编译

在MindSpore中使用Graph模式()运行网络,发现第一次运行非常慢,且只要输入Shape改变就会重新编译,如何优化?

2026-01-09 17:14:07 257

原创 在MindSpore中通过Custom原语调用Ascend C编写的算子时,如何正确配置func_type和bprop以支持反向传播?

在MindSpore中通过Custom原语调用Ascend C编写的算子时,如何正确配置func_type和bprop以支持反向传播?

2026-01-09 17:12:35 176

原创 MindSpore 在昇腾上模型推理延迟突增且波动大,同配置 GPU 推理稳定

把 ResNet101 分类模型迁移到昇腾设备做推理,同样用 batch_size=16 的配置,GPU 推理延迟稳定在 8ms 左右,但昇腾上延迟均值达到 28ms,且波动范围在 15-40ms 之间,推理性能和稳定性都差了不少。想请教大家:1)这种昇腾推理延迟突增且波动大的情况,常见诱因有哪些?2)MindSpore 有没有针对昇腾模型推理的性能调优参数(比如算子并行、内存分配策略)可以尝试?

2026-01-09 17:07:42 173

原创 MindSpore 模型推理结果与 PyTorch 偏差过大

将 PyTorch 训练的 BERT-base 文本分类模型迁移到 MindSpore 2.3.0 环境后,用相同测试集(1000 条样本)推理时,准确率从 89.2% 骤降至 61.5%,且预测标签与 PyTorch 结果的不一致率达 35%,排除了数据预处理差异的影响。仍未定位到精度偏差的核心原因,想请教大家:这种跨框架迁移后的精度大幅下降,可能是哪些因素导致的?(比如数据类型、算子实现差异、权重转换精度损失?)有没有 MindSpore 专属的精度调试工具(如梯度 / 中间输出对比工具)可以推荐?

2026-01-09 17:05:51 186

原创 模型训练时报错Cannot convert

模型训练时报错Cannot convert。

2026-01-09 17:02:59 124

原创 MindScope Transformers执行Qwen3推理 图编译失败求助

环境:容器内,Ascend 910B3单卡软件栈版本:MindFormers version: 1.7.0, MindSpore version: 2.7.1,Ascend-cann-toolkit version: 8.1.RC1,Ascend driver version: 23.0.6安装与检验教程:MindSpore参考了https://www.mindspore.cn/install/, 且两个验证均通过;

2026-01-09 16:59:11 299

原创 安装MindSpore Transformers找不到组件moxing

在容器中安装MindSpore Transformers 1.5.0 安装,教程参考 https://www.mindspore.cn/mindformers/docs/zh-CN/r1.5.0/quick_start/install.html 从源码编译,本地对应版本的MindSpore和CANN都正常安装且可以执行验证任务MindSpore Transformers 1.5.0安装后,按照文档说明进行检验,此刻出现如下报错:原因似乎是缺乏华为云上的一个组件moxing,但是我pip install mo

2026-01-09 16:54:13 268

原创 模型在静态图模式下运行正常,但切换到动态图模式后出现内存持续增长

摘要:用户在使用MindSpore 2.0进行图像分割训练时,发现动态图模式下出现内存持续增长导致OOM的问题。通过简化模型结构(仅保留卷积和ReLU)、调整参数及检查数据预处理均无法解决,而相同结构在PyTorch中运行正常。分析认为可能是MindSpore动态图模式下的内存管理或梯度缓存问题,建议通过极简脚本复现、启用profiling工具、检查代码引用及版本升级等方式排查。特别指出Python容器持有Tensor引用、Callback缓存数据等常见诱因,并推荐将可复现案例提交官方以帮助定位底层问题。

2026-01-09 16:49:53 535

原创 Mindnlp v0.5.0 无法导入`engine`包

MIndnlp v0.5.0无法导入engine,不能存在mindnlp.engine路径无法导入TrainingArguments, Trainer、TrainerCallback, TrainerState, TrainerControl类,源代码中只有`transformers 包。

2025-12-12 16:29:17 216

原创 在华为云创建的notebook,镜像为ms2.7.1-cann8.2rc1:v3,之后安装mindyolo一直报numpy版本冲突

降级numpy后,opencv又版本冲突了。

2025-12-12 16:27:04 255

原创 香橙派AI pro 8tops CANN 8.2.RC1 安装MIndSpore2.7.1、2.7.0、2.6.0失败

开发板是香橙派AI pro 8tops (16g)固件版本25.2.0,芯片310B4目前安装 mindspore 2.7.1、2.7.0、2.6.0都没有通过检测2.6.0的报错如下CANN 通过 `./Ascend-cann-kernels-310b_8.2.RC1_linux-aarch64.run –upgrade ` 从8.0.0更新到 8.2.RC1,也安装了 8.2.RC1 的 kernels。

2025-12-12 16:25:11 165

原创 指定Ascend设备但仍然使用CPU

使用Ascend算力微调模型时,虽然已指定Ascend设备,但在测试模型推理时仍使用CPU导致报错。

2025-12-12 16:23:19 151

原创 使用昇腾训练和CPU训练有所差异

昇腾设备训练似乎和CPU训练有所差异,使用mindspore在昇腾训练时,对于分类任务,不支持mindspore.int64,但是CPU上没有这个问题。而且在使用全零初始化权重的情况下,二者收敛速度差异较大,在昇腾上收敛速度远快于CPU,为什么会有这种情况?还有就是推理时mindspore-lite默认使用float32还是float16?

2025-12-12 16:04:10 162

原创 按照官网适配的版本配置了MindSpore等,还是一直报错

这是我选择的参数下载的版本最后还是一直报错有完全适配的版本吗?

2025-12-12 15:58:08 252

原创 Mindspore compression API无法使用

整个mindspore可以import,但无法import compression的Pruner是为什么?

2025-12-12 15:54:11 182

原创 MindSpore算子编译问题Pattern match failed in rewrite pass

在基于MindSpore框架开发点云处理模型时,我在自定义三维卷积算子的编译环节遇到了持续性的技术挑战。该算子在昇腾910环境中使用AKG编译器进行编译时,频繁出现IR转换失败的问题,错误信息仅提示"Pattern match failed in rewrite pass",缺乏具体的定位指引,使得调试工作变得相当困难。经过多次尝试,我改用TeLang重写算子描述后,编译通过率从最初的35%提升至62%,但在处理特定形状的输入张量(如[1,512,64])时仍然会触发段错误。

2025-12-11 14:58:49 622

原创 MindSpore网络编译问题BuildModel error 134

MindSpore 2.2.10+Ascend 910环境,同一份网络定义在GPU侧能完整跑通,切到Ascend后端就卡在GraphCompile阶段,日志只吐一行“BuildModel error 134”,把MS_SUBMODULE_LOG_v调到DEBUG、export GLOG_v=3、打开DUMP_GE_GRAPH、DUMP_OP_DEBUG,文件夹里依旧只有空白json;

2025-12-11 14:56:52 632

原创 Mindyolo030如何做对抗训练

Mindyolo030可以做对抗训练吗?

2025-12-11 14:52:38 140

原创 MindSpore报错求助No kernel found for [MyCustomOp] in device GPU

我已经按照 MindSpore 的规范,成功实现了一个自定义算子(一个名为MyCustomOp的 element-wise 操作),并且在 CPU 后端上能够正常编译和运行。

2025-12-11 14:50:11 732

原创 RotatE模型推理报错:Build failed

按照代码仓教程,跑RotatE模型推理报错:Build failed完整日志:2self.run()

2025-12-11 14:46:39 587

原创 模型训练报错:The 2-th argument type ‘RowTensor’ is not supported now

训练rotateE模型,使用embedding异构会报RuntimeError。

2025-12-11 14:45:09 168

原创 使用华为云notebook的jupyterlab运行程序,只能运行一个文件的程序,再运行另一个程序会报错

使用华为云notebook的jupyterlab运行程序,每次为什么只能运行一个文件的程序,在运行另一个程序之后就会报错,提示。

2025-12-11 14:43:33 171

原创 模型训练时报错“NotImplementedError: Cannot convert a symbolic Tensor to a numpy array”

模型训练时报错“NotImplementedError: Cannot convert a symbolic Tensor to a numpy array”

2025-12-05 16:00:52 341

原创 使用容器转换ONNX模型到MINDIR失败

使用ascendai/cann:8.2.rc1-310p-openeuler24.03-py3.11镜像部署模型转换容器(dockerhub上下载的,不确定是否是官方提供),在无显卡离线环境和有显卡环境均部署过,都转换失败,在有显卡环境同时宿主机已经安装完整的cann包和相关工具,并且在创建容器时候并使用了-e ASCEND_VISIBLE_DEVICES=1配置,然后使用命令:转换成功。

2025-12-05 15:58:59 207

原创 昇思框架数据处理问题The pointer[auto_grad_cell_ptr_] is null

建议你将 自定义数据集中使用 Tensor / nn / ops 类型 替换成相应的 numpy 操作,然后再试一下。

2025-12-05 15:52:18 539

原创 Mindspore验证安装报错

根据官方文档在安装mindspore的时候进行到最后一步验证是否安装成功时候报错了,求大佬解答,具体报错信息如下:我当前安装的是最新版本的CANN两个包Ascend-cann-kernels-310b_8.3.RC1.alpha003_linux-aarch64.run与Ascend-cann-toolkit_8.3.RC1.alpha003_linux-aarch64.run。

2025-11-21 11:34:37 362

原创 在昇思大模型平台上微调qwen3-32B模型,单机多卡信号同步失败 Sync run failed

在昇思大模型平台上,进行微调qwen3-32B,第一次运行时,报loss节点找不到;下午重新启动平台,报错多卡信号同步失败,早上的那个错误没有了。具体信息如下:_op()

2025-11-21 11:32:36 879

原创 MindSpore模型转换出现问题

硬件环境(Ascend/GPU/CPU): Ascend310MindSpore版本: mindspore=2.6执行模式(PyNative/ Graph):不限Python版本: Python=3.10操作系统平台: linux。

2025-11-21 11:30:46 686

原创 在香橙派上部署vit模型上报错

采用香橙派20T上的jupyterlab。

2025-11-21 11:27:48 247

MindSpore报错解决地图2022.10.21

MindSpore常见问题主要包括数据加载与处理问题、网络构建与训练问题以及分布式并行配置问题等。MindSpore在不同场景下,积累了大量常见的问题案例。以下是对应的案例列表。

2022-10-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除