【CANN训练营第三季】学习ascend-CANN遇到的经典疑难问题总结

irrationality

已于 2023-01-09 12:02:45 修改

阅读量1.1k

点赞数 1

分类专栏：昇腾文章标签：学习 python 开发语言

于 2023-01-08 17:20:01 首次发布

本文链接：https://blog.csdn.net/weixin_54227557/article/details/128530290

版权

昇腾专栏收录该内容

18 篇文章 4 订阅

订阅专栏

1、/home/HwHiAiUser/samples_1/cplusplus/level2_simple_inference/1_classification/resnet50_imagenet_classification/src/…/inc/utils.h:13:10: fatal error: acl/acl.h: No such file or directory
#include “acl/acl.h”
原因：放错了DDK——PATH

export DDK_PATH=$HOME/Ascend/ascend-toolkit/latest
export NPU_HOST_LIB=$DDK_PATH/runtime/lib64/stub

仔细检查下面两个语句是否为directory

2、[ERROR] input image size[602112] is not equal to model input size[301056]
[ERROR] memcpy device buffer failed, index is 0 在这里插入图片描述
我排除了
sample_process.cpp
model
caffe_model
最后发现居然不知道是自己好久手抽，导致把transferPic.py的代码给改错了（仔细观察其中与模型输入有关的部分），现在终于对了。

3、ascend错误代码在哪里查看

https://www.hiascend.com/document/detail/zh/CANNCommunityEdition/600alpha003/infacldevg/aclcppdevg/aclcppdevg_03_0653.html

4、对RC和EP的理解
https://www.hiascend.com/document/detail/zh/CANNCommunityEdition/600alpha003/softwareinstall/instg/atlasdeploy_03_0095.html

5、linux向指定python安装包
云服务器上有时候会有包的问题
方法一：
找到该python环境对应地pip位置，一般是xxx/bin/pip，然后使用xxx/bin/pip install package ，或者将该指令软连接到pip，这样再使用pip install package，就可以了。

方法二：
找到该python环境地位置，如/home/ls/nanconda3/bin/python ，使用

/home/ls/anaconda3/bin/python -m pip install package
/usr/local/python3.7.5/bin/python3 -m pip install pillow

即可。

6、wget返回Cannot write to ‘resnet50.caffemodel’ (Success).
一般原因是root用户创建的文件夹，普通用户在这里没有权限写。

7、atc出现一长串的报错：
原因：该用户环境下的有关环境变量设置错误。

export DDK_PATH=$HOME/Ascend/ascend-toolkit/latest
export NPU_HOST_LIB=$DDK_PATH/runtime/lib64/stub

仔细检查下面两个语句是否为directory

8、pytorch迁移后，模型保存与加载出错：
在这里插入图片描述
原因：没有执行to(device)的模型操作

9、pytorch迁移后导出onnx模型出错
RuntimeError: c10::device_or_default(device_opt).type() == at_npu:🔑:NativeDeviceType INTERNAL ASSERT FAILED at “/usr1/workspace/FPTA_Daily_Plugin_open_v1.8.1-3.0.rc3/Plugin/torch_npu/csrc/aten/common/TensorFactories.cpp”:339, please report a bug to PyTorch.
device有问题，要么搞成cpu，要么搞成npu
cpu:https://www.hiascend.com/document/detail/zh/CANNCommunityEdition/600alpha003/ptmoddevg/ptmigr/ptmigr_000057.html
npu:https://gitee.com/ascend/pytorch/issues/I5QVNL?from=project-issue

10、An error occurred during the execution. Please check the log of the last step for details.
在这里插入图片描述
这个是ATC的环境没配好，仔细查看atc.log

寻找其中有[ERROR]标签的部分，发现是python版本不匹配，依次对比服务器上所有python版本，
发现是/usr/bin/python3的版本不对，修改软连接为3.7.5的即可。

11、保存onnx模型报错TypeError: _convolution() missing 1 required positional argument: ‘allow_tf32’ (Occurred when translating _convolution).
参考我提的这个issue：https://gitee.com/ascend/pytorch/issues/I69F2Z
官方文档缺少对allow_tf32参数的设置，导致onnx模型导出报错
修改torch/onnx/symbolic_opset9.py中def _convolution函数为：
def _convolution(g, input, weight, bias, stride, padding, dilation, transposed, output_padding, groups, benchmark, deterministic, cudnn_enabled, allow_tf32=None):

vi ~/anaconda3/envs/PyTorch-1.8.1/lib/python3.7/site-packages/torch/onnx/symbolic_opset9.py

12、mindstudio如何配置错误阈值
Error Threshold

配置自定义精度标准，取值为含两个元素的列表：[val1，val2]

val1：算子输出结果与标杆数据误差阈值，若误差大于该值则记为误差数据。
val2：误差数据在全部数据占比阈值。若误差数据在全部数据占比小于该值，则精度达标，否则精度不达标。
取值范围为[0.0,1.0]。
[0.001,0.001]表示误差超过千分之一的数据在千分之一以下

13、/tmp/8028ed5d-5ce3-479f-898b-8be2973bcc4e/testcases/st/out/sinh/run/out/main: error while loading shared libraries: libascendcl.so: cannot open shared object file: No such file or directory

ST测试出现这个问题，这个是由于LD_LIB未配置好导致的
在这里插入图片描述

通过echo，把结果这一段复制进去对应的空即可。

irrationality

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
6
评论
【CANN训练营第三季】学习ascend-CANN遇到的经典疑难问题总结

找到该python环境对应地pip位置，一般是xxx/bin/pip，然后使用xxx/bin/pip install package ，或者将该指令软连接到pip，这样再使用pip install package，就可以了。最后发现居然不知道是自己好久手抽，导致把transferPic.py的代码给改错了，现在终于对了。找到该python环境地位置，如/home/ls/nanconda3/bin/python ，使用。仔细检查下面两个语句是否为directory。原因：该用户环境下的有关环境变量设置错误。
复制链接

扫一扫