深度学习
xiao | yang
这个作者很懒,什么都没留下…
展开
-
使用mindsporehub 加载模型报错
***************************************************解答*****************************************************1. 将ckpt里面这行报错的注释掉,再训练个5轮的样子,看性能是否可以,后面就可以继续使用。2. 看是不是batch_size导致,可进行排查看看。原创 2023-02-25 10:48:59 · 326 阅读 · 0 评论 -
mindspore_rl安装出错
***************************************************解答*****************************************************建议使用pip install mindspore-rl==0.5.0安装软件包。mindspore1.9.x没有发布对应的Reinforcement套件包。pip安装mindspore_rl出错,更换源仍出错。原创 2023-02-25 10:47:26 · 128 阅读 · 0 评论 -
YOLOv3 数据集问题
***************************************************解答*****************************************************yolov3_resnet18是为内部定制的一个网络,数据集没有开源,YOLOv3的话可以使用darknet53。到这一步的时候,发现没有给数据集(COCO2017)转换的文件。求一个数据集处理代码,或者能用的txt文件.那个公版的实现,数据处理过程是全的。原创 2023-02-25 10:46:05 · 147 阅读 · 0 评论 -
ONNX模型如何转换到MindIR格式
***************************************************解答*****************************************************目前应该是不能直接把ONNX转换为MINDIR的。求问ONNX模型如何转换到MindIR格式?原创 2023-02-25 10:43:40 · 256 阅读 · 0 评论 -
如何查看昇腾服务器上正在跑的Mindspore的训练任务?
***************************************************解答*****************************************************如何查看昇腾服务器上正在跑的Mindspore的训练任务?有的训练任务在命令行一打bash run_standalone_train.sh [DATA_PATH]就看不到了。您好,ps a查询所有进程,是否能看到,如果训练任务很小,看下输出目录是否有输出结果。原创 2023-02-25 10:43:41 · 156 阅读 · 0 评论 -
yolox找不到文件hccl_tools.py
***************************************************解答*****************************************************在公共目录下,utils/hccl_tools/hccl_tools.py。可是找不到hccl_tools.py文件。中快速入门尝试demo。原创 2023-02-25 10:42:16 · 148 阅读 · 0 评论 -
求助如何使用已有的api实现上采样
如果用pytorch实现,则可以使用对应的UpSample,而mindspore中仅有一个ResizeBilinear,这个api不能接收扩大倍数的参数,只能在construct中传入,不能在定义的时候确定,使用起来不太方便。****************************************************解答*****************************************************求助如何在init内实现上采样层的定义。原创 2023-02-25 10:41:09 · 81 阅读 · 0 评论 -
CNN+DNN训练,过了100个epoch后报错了,怎么回事?
***************************************************解答*****************************************************2. 打开动态图进行定位,看看你的数据和网络结构是不是有问题。原创 2023-02-25 10:38:27 · 361 阅读 · 0 评论 -
使用ResNet报错提示GetEvaluatedValueForNameSpaceString
***************************************************解答*****************************************************可以参考官网仓库中提供的resnet18用例运行,该用例基于MindSpore1.9版本完成,您试试呢。该文章的代码能正常运行(训练和预测),文章里用是它自行定义的ResNet;测试代码是参考这篇文章的。后就会产生上述错误。原创 2023-02-25 10:36:26 · 261 阅读 · 0 评论 -
在Mindspore中遇到的问题,ValueError: For ‘MatMul‘, the input dimensions must be equal, but got ‘x1_col‘:
***************************************************解答*****************************************************输入到回归模型的每个样本数据都是426*640的图片经过flatten后产生的数组,该数组的shape为(817920,),X_train就是若干这样的数组组成的。本小白正学习如何使用Mindspore,打算用逻辑回归对图片进行分类。原创 2023-02-25 10:33:17 · 562 阅读 · 0 评论 -
体验昇思MindSpore的“数据处理性能优化”
作为一名合格的粉(bai)丝(piao)人员,居然这次才知道这个活动,当然不能错过这次机会。开始整活。按照活动中的要求,第一步要完成加入社区,没问题。终于找到组织了然后是第二步,体验“数据处理性能优化”,开始吧。按照教程的目录一步一步的走。下载数据集:巧妇难为无米之炊嘛,先把数据材料整到位作为白嫖怪,当然会使用华为云的资源呀第一个小问题在运行正常代码的时候会报错没有mindvision,所以第一步是先安装上。安装:pip install mindvision。原创 2022-12-28 10:53:32 · 194 阅读 · 0 评论 -
MindSpore报错what(): scoped_acquire::dec_ref(): thread state must be current!
***************************************************解答*****************************************************在mindspore框架下进行网络训练,运行这个画框的循环时,会弹出以下报错,而且此报错出现在第几次循环不固定,不知道如何解决,求助!看你的截图好像使用的是Python39?请确认一下自己使用Python版本,推荐使用Python37,其他版本有可能出现未知的问题。原创 2022-11-11 09:57:53 · 249 阅读 · 0 评论 -
DateSet 使用 app_sampler 方法 添加自定义Sampler 打印结果不符合预期
经定位,自定义Sampler使用`add_sampler`方法时存在bug,返回结果将全部变为父采样器首个索引对应的值,我们将尽快修复此问题,预计在下个版本中体现。在work函数中,我先创建了dataset 再创建Sampler 并使用add_sampler方法为dataset添加Sampler。work函数 和work2函数中,使用了与官方教程(自定义采样器部分)相同的数据集与Sampler,并打印dataset的内容。在work2函数中,我在创建dataset的同时指定了Sampler。原创 2022-11-10 09:58:43 · 390 阅读 · 0 评论 -
MindSpore在Ascend上的精度问题
可能是在Asecend上算子出现溢出问题,如果找到溢出的算子,需要将其设置为fp32运行。具体可以参考精度调试指南,https://www.mindspore.cn/mindinsight/docs/zh-CN/master/accuracy_problem_preliminary_location.html。请问相同的mindspore代码在gpu上精度能达到0.59,在ascend上精度只有0.02,可能的原因是什么呢?mindspore版本1.7.1。ascend 910单卡。原创 2022-11-10 09:55:05 · 177 阅读 · 0 评论 -
Linux-aarch64安装好MindSpore后,提示Illegal instruction
***************************************************解答*****************************************************我们mindspore whl包,暂时不支持在骁龙芯片上运行,只能选择其他硬件了。前面安装一切顺利,但是验证是否安装成功是提示如下错误。原创 2022-11-10 09:53:48 · 246 阅读 · 0 评论 -
win11下mindspore安装失败
***************************************************解答*****************************************************请问您的Pip是什么版本呢,建议更新下再试一试。后在官网选择重新选择安装设置如下。参照在技术手册命令报错。原创 2022-11-10 09:52:04 · 238 阅读 · 0 评论 -
模型进行MindIR格式文件导出时报错,请问如何定位错误,以及如何解决?
***************************************************解答*****************************************************改成ms.export(outmodel,*(input1,input2), file_name='MFL', file_format='MINDIR')试试。版本:mindspore 1.8.1。原创 2022-11-10 09:50:31 · 1044 阅读 · 0 评论 -
MindSpore中Batchnorm2d的参数momentum设置求助
mindspore新人,在设置batchnorm2d中的momentum参数时,发现自己无法修改此参数,一直保持0.1的值(0.1并不是文档中说明的值,0.9才是)。不知道是自己看到的momentum是不是文档表述的momentum。求助原因是想尝试修改此参数。本人使用的是cpu与mindspore1.8版本。是可以修改的,但是print出来的信息是1-momentum,内部做了转化。你可以改成0.2,打印出来应该是0.8。原创 2022-11-10 09:48:31 · 435 阅读 · 0 评论 -
鲲鹏+昇腾+MindSpore+Python开发Web Service用什么框架比较好啊?
如果你用的是Atlas 200这种边缘设备,由于其内存较小,CPU性能差,一般来说,Web应用可以放在其他服务器上,通过该服务器跟Atlas设备的交互完成推理结果的展示。如果你使用的是Atlas 500Pro这种服务器,有足够的内存和硬盘环境,那么你的Web应用自然可以放在Atlas服务器上。有鲲鹏+昇腾+MindSpore+Python开源的Web Service项目吗?无论哪种,都是restful格式的情况下,你用什么框架都是可以的。要看你的应用部署在哪里。原创 2022-11-10 09:47:07 · 252 阅读 · 0 评论 -
MindSpore中Tensor修改指定值的效率太低
***************************************************解答*****************************************************请检查一下mindspore的版本以及是在什么设备上有这个问题;以及检查一下pytorch和mindspore对于这个算子的profiling数据。这时, 在执行过程中耗时会非常长, 而同样逻辑的代码在PyTorch和Numpy中, 在极短时间内就可以完成.原创 2022-11-10 09:45:34 · 327 阅读 · 0 评论 -
mindspore计算梯度时显示设备内存不足
***************************************************解答*****************************************************两个网络模型,第一个网络模型固定参数仅用于输出,第二模型用于训练,其中有两个输出(有对应的真实标签),已附代码;报错算子的shape。原创 2022-11-10 09:34:13 · 355 阅读 · 1 评论 -
LossMonitor 使用咨询
mindvision的lossmonitor 显示AdamWeightDecay的lr应该有问题,可以使用mindspore原生的lossmonitor,ms原生的lossmonitor不可以查看lr,因为有时候框架侧获取不到训练过程中的LR。请问一下关于LossMonitor的详细介绍手册在哪里看呢?在lr那一栏显示的一直是我传入的0.005,但是我试过不传入lr时候显示的好像是一个默认数值,我网络训练用的是AdamWeightDecay,没有观察到lr的动态变化,这是为啥呢。你好,请问是想查看lr吗?原创 2022-11-09 17:20:09 · 198 阅读 · 0 评论 -
mindspore-gpu模型运行,警告数据集为动态shape
***************************************************解答*****************************************************比如需要调用mindspore.dataset.GeneratorDataset.map接口,将以下的数据增强操作传入。#传入的第一个tensor是data,第二个tensor是labels,其中第一个元素64为批量大小。这里是固定shape,要给tensor赋值的,不然会报错。原创 2022-11-09 17:19:31 · 193 阅读 · 0 评论 -
训练到第23个epoch中止,无法正常运行
***************************************************解答*****************************************************看不出问题代码是哪部分,因为是dataset_iterator_kernel的问题,请问出错的地方是数据加载吗。单独迭代一下数据集看看耗时呢?用官网的例子修改的函数如下。看一下是否输出数据时间太长。原创 2022-11-09 17:18:27 · 1244 阅读 · 0 评论 -
静态图模式下报错【Should not get item from non-sequence type, obj: CellList】
***************************************************解答*****************************************************使用CellList,报错为其是非序列类型。可是文档中说,CellList可以像普通Python列表一样使用。镜像:mindspore1.7.0-cann5.1.0-py3.7-euler2.8.3。方法二:CellList问题在1.8上被修复了,可以用mindspore1.8的包试试。原创 2022-11-09 17:17:34 · 193 阅读 · 0 评论 -
MindSpore中定义的张量支持矩阵乘法求逆等操作吗
***************************************************解答*****************************************************MindSpore中定义的张量支持矩阵乘法求逆等操作吗。可以使用 ops.MatrixInverse。原创 2022-11-09 17:16:32 · 204 阅读 · 0 评论 -
MindSpore lite支持在RISCV架构的芯片上进行推理吗?
首先要将所有的源代码包括依赖的库代码,交叉编译到riscv(设置交叉编译器),应该要修改mindspore/lite/CMakeLists.txt,build_lite.sh等文件,另外有些x86,arm的汇编算子代码无法被编译,可能要根据情况关闭cmake里控制这些代码的编译option。****************************************************解答*****************************************************原创 2022-11-09 17:16:07 · 134 阅读 · 0 评论 -
mindspore ascend安装跑错
***************************************************解答*****************************************************MindSpore需要和CANN的版本配套,现在机器上的CANN只能配套MindSpore1.7.1。请问应该怎么解决,是只能安装1.7.1的 版本吗。环境Ascend910 aarch64。尝试安装mindspore1.8.1。在进行模型训练时报如下错误。原创 2022-11-09 17:15:16 · 690 阅读 · 1 评论 -
ResizeBilinear与torch.nn.Upsample输出差异情况下,如何实现对torch.nn.Upsample的ms算子转化
可以暂时把报错(raise ValueError(f"Currently `half_pixel_centers`=True only support in Ascend device_target, ")对应的校验device_target代码删掉就可以了,在nn_ops.py文件里的 ResizeBilinear类的__init__方法里。你可以设置ResizeBilinear的参数,nn.ResizeBilinear(half_pixel_centers=True),结果应该就一致了。原创 2022-11-09 17:14:13 · 625 阅读 · 0 评论 -
window11 Pip安装失败
***************************************************解答*****************************************************安装错了版本,安装了python的win32版本,应该安装python的amd64位版本。原创 2022-11-09 17:13:18 · 415 阅读 · 0 评论 -
如何对应用于mindspore lite的模型进行迁移学习
就以MindSpore Lite 端侧图像分类demo https://gitee.com/mindspore/models/tree/r1.5/official/lite/image_classificationwei为例。可以参考端侧训练相关文档https://www.mindspore.cn/lite/docs/zh-CN/r1.8/use/converter_train.html。怎样才能对mobilenetv2.ms进行再训练。原创 2022-11-09 17:12:24 · 221 阅读 · 0 评论 -
mindspore中没有torch.cuda.amp.GradScaler相关算子
***************************************************解答*****************************************************mindspore中没有torch.cuda.amp.GradScaler相关算子。自动混合精度可以参考。原创 2022-11-08 09:52:30 · 176 阅读 · 0 评论 -
mindspore缺失contiguous算子
torch的这个算子的作用是把tensor在内存上变成连续的,对于逻辑意义没有任何改变。因此转移到mindspore上的时候,应该可以忽略这个算子(即把它们去掉)。我在进行从Pytorch向MindSpore的模型迁移的时候,发现有两个Pytorch的网络都用到了Torch.Tensor.contiguous()算子。(1)我是不是在向MindSpore迁移时一定要调用该算子?(2)如果是,则我应该怎么解决?原创 2022-11-08 09:51:23 · 243 阅读 · 0 评论 -
mindspore的scatterNd和PyTorch的scatter对应不上
***************************************************解答*****************************************************请问有什么方法可以解决,或者提供一种自定义实现类似PyTorch中scatter的思路。scatterNd传入三个参数,返回的是向一个新的空Tensor上添加值。scatter则是在传入的Tensor基础上添加值。根据指定的索引将更新值散布到新Tensor上。而且添加值的方法也不一样。原创 2022-11-08 09:50:17 · 366 阅读 · 0 评论 -
请问最新的ops.custom接口怎么定义GPU算子及实现呢?
***************************************************解答*****************************************************您好,可以参考https://www.mindspore.cn/tutorials/experts/zh-CN/master/operation/op_custom.html。如上图所示,可以以hybrid, aot, akg三种方式自定义gpu算子。原创 2022-11-08 09:49:19 · 142 阅读 · 0 评论 -
mindspore网络构建调用numpy算子失败
我在进行Pytorch网络向mindspore迁移时,发现mindspore里缺少一个einsum算子。经过查阅资料发现,numpy中有类似的api。所以就想在网络构建时调用numpy中的。我看mindspore文档中说是,在construct函数中不能调用第三方算子,于是我先在init函数中初始化了一个np.einsum对象,然后在construct函数中调用该算子。在MindSpore的1.8版本中已经支持了Einsum算子了。如果当前使用的版本不支持,建议更新到1.8版本试试。einsum算子替代。原创 2022-11-08 09:48:12 · 277 阅读 · 0 评论 -
求助,MindSpore反向求导报错
首先确认下你的环境的~/ascend/log下是否有device-*和plog文件夹,可以删除旧的目录,在运行后会自动生成新的目录,是最新落盘的日志文件,此时可以看下是否有ERROR日志。****************************************************解答*****************************************************原创 2022-11-08 09:46:09 · 318 阅读 · 0 评论 -
使用MindSpore的broad_cast算子报错
看报错的话,广播机制却报了layernorm的错,可能是shape对应不上。猜测你的construct在用broadcast_to之前是使用了layernorm的。在模型baseline测试过程中,定义在construct中的语句(broadcast_to)报错如上。1,broadcast_to算子在这里就是不好用,如果broadcast_to是为了改变x的维度的话,或者试试tile和expandims也许能跑通。2,你的shape或者Layernorm的某个参数(比如。可能设置有问题,需要再检查一下。原创 2022-11-08 09:44:25 · 184 阅读 · 0 评论 -
模型中加入SummaryCollector,训练模型报错
参考的是官方的教程,已经成功安装mindinsight,并且能能成功访问insight主页。但是在训练代码中,加入SummaryCollector后,训练在第一个epoech的第一个step就出错。在指定的summary目录下,没有生成日志文件。python 3.75 conda 10.1 mindspore 1.8 mindinsight 1.8 和 1.7均尝试过。可以判断在记录dataset_graph时发生错误,如果不需要记录数据处理流程,可以在。中设置为False。原创 2022-11-08 09:40:19 · 367 阅读 · 0 评论 -
使用Mindspore推理会出现内存泄漏问题
***************************************************解答*****************************************************3. 您出问题的代码,如果是model仓下的代码,请提供链接地址;如果是个人网络,请提供可还原问题的最小脚本及所需数据集。以及为什么推理速度为什么这么慢。2. 软件环境:您目前的mindspore版本。1. 硬件环境:GPU/ASCEND/CPU。4. 您完整的log日志。原创 2022-11-08 09:36:53 · 392 阅读 · 0 评论