Ascend训练，如何将算子强制转换为float32

最新推荐文章于 2024-11-07 14:05:19 发布

小乐快乐

最新推荐文章于 2024-11-07 14:05:19 发布

阅读量190

点赞数

文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/weixin_45666880/article/details/127783457

版权

在Ascend上训练时精度和在GPU上训练时差距较大，怀疑是算子溢出问题。

请问如何将Ascend算子强制设置为float32运行？是只需要在传入相应算子前进行Ops.cast就行了吗？

还有一个问题是，算子溢出一般是只会发生在前向网络里吗，我看有一些文档提到loss里的算子是按float32处理的？

****************************************************解答*****************************************************

也可以把对应算子的输入Tensor传给Tensor(...,dtype=ms.float32)，反向算子也有肯能溢出吧，不过反向一般都是跑的Fp32.

init里

self.linear = nn.Dense(in_channels, out_channels).to_float(mstype.float32)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小乐快乐

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

这样设置你的Mac，效率提升好几倍

weixin_50894115的博客

02-18

1256

这样设置你的Mac，效率提升好几倍 Mac系统Windows系统的操作逻辑不太一样，所以对于一个新手来讲，需要一些适应期，在这里，我介绍一下macbook的小众技巧，帮助新手快速设置自己的macbook，提高工作效率。触发角功能首先第一个比较好用的功能就是触发角，触发角mac独有的一个设置，它的功能就是当你把光标放到屏幕的四个角落，就会唤起自己设置的一些功能。比如：快读备忘录、锁定屏幕、将电脑进入息屏状态，等快捷功能；设置里搜索触发角；进入触发角设置；在这里你就可以设置你想要的功

小北的技术博客：探索华为昇腾CANN训练营与AI技术创新——Ascend C算子开发能力认证考试（初级）

Zhiyilang的博客

10-10

1488

哈喽哈喽友友们，这里是zyll~（小北）智慧龙阁的创始人及核心技术开发者。在技术的广阔天地里，我专注于大数据与全栈开发，并致力于成为这一领域的新锐力量。通过智慧龙阁这个平台，我期望能与大家分享我的技术心得，共同探索技术的无限可能。

参与评论您还未登录，请先登录后发表或查看评论

【待测】tf 训练验证码识别模型：识别过程中加载测试图片注意进行精度转换（np.float32()）；先将图片灰度处理再二值化处理效果更好；ord()是取该字符的ascii

nyist_yangguang的博客

12-04

542

注：如果项目出现问题，可以尝试以下链接： GitHub - Gateway11/tensorflow-examples: 【中文语音识别】【验证码识别】 tf 训练验证码识别模型的样本可以用captcha生成，captcha在linux中的安装也很简单。 pip install captcha 生成验证码： # -*- coding: utf-8 -*- from captcha.image import ImageCaptcha # pip install captc...

python学习笔记

weixin_52878095的博客

08-20

929

输出函数：print 可以输出数字、字符串、含有运算符的表达式数字：print(1) print(2) 字符串：print("hello world") print('hello') 含有运算符的表达式：print(1+3) 输出的是4 print("1+3") 输出的是1+3 可以将内容输出到显示器、文件 print(1) 将1输出到显示器中 fp=open("F:/text.txt","a+") #a+：如果文件不存在就创建，存在就在文件内容的后面继续追加 pri

深度学习框架 PyTorch vs MindSpore （一）：二者的Tensor操作方法，以及与NumPy的转换

qq_43799400的博客

07-15

6653

一、torch.Tensor 1、torch.Tensor 的基本用法 torch.Tensor 默认数据类型是 float32 torch.LongTensor 默认数据类型是 int64 数据类型转换可通过 t.int() 和 t.float()实现 t.size(): 查看形状，与 t.shape 等价 t.ndim: 查看维数 t.numel(): 查看元素总数 type(t): 查看数据结构类型 t.dtype: 查看元素数据类型 example： import torch b=torch.Te

Ascend 算子开发学习笔记

weixin_51511772的博客

07-23

469

存储单元为各个计算单元提供转置过并符合要求的数据，计算单元返回运算的结果给存储单元，控制单元为计算单元和存储单元提供指令控制，三者相互协调合作完成计算任务。轴（axis）：axis=0表示是张量中的第一维，axis=1表示是张量中的第二维，axis=-1。多个AI Core共享相同的指令代码，每个核上的运行实例的唯一区别是block_idx不同。算子类型：网络中每一个算子根据算子类型进行算子实现的匹配，相同类型的算子的实现逻辑相同。矢量编程过程中三个任务是乱序的，但是Deque是阻塞的，保障顺序。

Ascend C算子开发能力认证（初级）题库.pdf

08-18

《Ascend C算子开发能力认证（初级）题库》是专为准备华为Ascend AI芯片平台的初级开发者认证考试的学习者设计的题库文档。该文档提供了丰富的题目资源，涵盖了C算子开发的基础知识、编程实践、调试技巧等关键内容，...

昇腾微认证＞Ascend C算子开发能力认证考试（中级）

09-29

昇腾微认证＞Ascend C算子开发能力认证考试（中级）

小北的技术博客：探索华为昇腾CANN训练营与AI技术创新——Ascend C算子开发能力认证考试（中级）

Zhiyilang的博客

10-10

1439

近期，小北参与了华为昇腾CANN训练营2024第二季的学习，这次训练营聚焦于Ascend C算子开发能力认证（中级），为我提供了一个深入学习昇腾AI基础软硬件平台的机会。通过系统的课程学习和实践操作，我不仅掌握了算子开发的基本技能，还了解了昇腾原生开发的全流程，这对于小北在大数据和AI领域的进一步研究具有重要意义。

【求助】基于Ascend910的MindSpore训练无法复现GPU上的模型效果

weixin_45666880的博客

07-20

480

而且观察到一个现象loss用的是MS-SSIMloss，在GPU上训使用的lr是0.00001，最终是可以收敛的，但是在Ascend910上训练的时候，还是用0.00001这个lr，训练十几个epoch之后，loss反而会上升，无法收敛。使用相同的训练数据和训练流程，在Ascend上训练卷积下采样模型，一直无法复现在GPU上训练出的模型效果，在同一个测试集上的测试MS-SSIM有0.15的差距（0.945VS0.96）。1、使用MindSpore训练的时候，有没有一些调优的trick？......

使用mindspore复现segmenter时，在GPU上速度精度均正常，但是在Ascend910上推理速度出奇的慢

weixin_45666880的博客

11-02

257

1、使用mindspore复现segmenter时，在GPU上速度精度均正常，但是在Ascend910上推理速度出奇的慢, 一张图片要几十秒，非常不正常。具体参考https://bbs.huaweicloud.com/forum/thread-146285-1-1.html 尤其是其中“手动混合精度”部分。mindspore复现语义分割算法segmenter。请专业人员帮忙解决一下，可以提供代码。

MindSpore在Ascend上的精度问题

xi_xiyu的博客

11-10

178

可能是在Asecend上算子出现溢出问题，如果找到溢出的算子，需要将其设置为fp32运行。具体可以参考精度调试指南，https://www.mindspore.cn/mindinsight/docs/zh-CN/master/accuracy_problem_preliminary_location.html。请问相同的mindspore代码在gpu上精度能达到0.59，在ascend上精度只有0.02，可能的原因是什么呢？mindspore版本1.7.1。ascend 910单卡。

同样的代码在Ascend上和GPU上存在差异的解决思路

skytttttt9394的博客

01-28

411

其中，上半部分为torch的conv1d初始化，下半部分为MindSpore的conv1d初始化，可以发现torch中它基于输入的相关信息构建了一个均匀分布的初始化。在模型迁移任务中，同样的代码在Ascend上和GPU上训练精度差了很多，在查找问题时发现layer_norm部分存在较大的精度差异，如何设置才能保证两个环境下精度一致？总之，在迁移任务中发现有精度差别和训练表现差异时可以优先尝试随机数和模型初始化对齐的思路。在模型迁移任务中，发现相同算子如conv1d表现出来存在一定的差别，怎么调整？

【Mindspore产品】【自定义Ascend算子功能】使用export导出调用自定义算子的模型出错

weixin_45666880的博客

06-16

508

问题描述：【功能模块】Mindspore.export【环境说明】ModelArts NoteBook镜像：tensorflow1.15-mindspore1.5.1-cann5.0.3-euler2.8-aarch64【操作步骤&问题现象】1、使用TIK实现自定义CusAdd算子2、构建使用了CusAdd算子的网络Net3、使用export把Net导出成AIR格式4、出现报错，显示找不到自定义算子CusAdd【相关代码说明】add_impl.py #tik实现自定义算子cus_add.py #kernel

一个使用Mindspore进行简单线性函数拟合的例子

skytttttt9394的博客

07-27

707

转载地址：https://bbs.huaweicloud.com/forum/thread-69090-1-1.html 作者：Yesterday 最近在学习使用Mindpsore，经过这几个星期的学习，并同很多华为的朋友进行咨询以后，总算基本上理解了Mindpsore的基本操作。我在学习中发现，官网教程一上来就用一个图片分类的例子作为基础教程，对于初学者来说非常不友好。所以在这里我给大家分享一个我自己参照官网教程编写的，比图片分类更简单的线性函数拟合的例子，希望能对大家学习使用Mindpsore有所帮

mindspore两日集训营202209-自定义算子数据处理

kewei chen

09-10

751

题目：实现更丰富的数据预处理策略，穿插MindSpore预定义的数据增强API、以及自定义的python function操作。定义两个函数，一个是张量形状的推导函数（infer_shape）,另一个是张量数据类型的推导函数（infer_dtype）。使用作业模板提供的测试代码测试基于上面函数的pyfunc类型自定义算子，并与MindSpore自带的Sin算子作为比较。题目：使用MindSpore定义Cifar10数据预处理流程，并输入真实Cifar10数据集完成预处理，获得预处理的结果。

MindSpore在Ascend后端报错算子不支持

Kenji_Shinji的博客

10-10

1264

自助餐剩余食品识别图像分割系统：教学内容全覆盖

sgcsdn99的博客

11-04

1440

数据集信息展示在本研究中，我们使用的数据集名为“9_5_Merged”，该数据集专门用于训练改进YOLOv8-seg的自助餐剩余食品识别图像分割系统。该数据集包含71个类别，涵盖了丰富多样的食品种类，旨在提高模型对不同类型剩余食品的识别和分割能力。通过对这些类别的细致划分，我们希望能够实现更高精度的图像分割，进而优化自助餐剩余食品的管理和利用。

掌握AIStarter新功能，轻松关闭广告享受纯净浏览体验