【CANN训练营第三季】学习ascend-CANN遇到的经典疑难问题总结

1、/home/HwHiAiUser/samples_1/cplusplus/level2_simple_inference/1_classification/resnet50_imagenet_classification/src/…/inc/utils.h:13:10: fatal error: acl/acl.h: No such file or directory
#include “acl/acl.h”
原因:放错了DDK——PATH

export DDK_PATH=$HOME/Ascend/ascend-toolkit/latest
export NPU_HOST_LIB=$DDK_PATH/runtime/lib64/stub

仔细检查下面两个语句是否为directory

2、[ERROR] input image size[602112] is not equal to model input size[301056]
[ERROR] memcpy device buffer failed, index is 0在这里插入图片描述
我排除了
sample_process.cpp
model
caffe_model
最后发现居然不知道是自己好久手抽,导致把transferPic.py的代码给改错了(仔细观察其中与模型输入有关的部分),现在终于对了。
在这里插入图片描述
3、ascend错误代码在哪里查看

https://www.hiascend.com/document/detail/zh/CANNCommunityEdition/600alpha003/infacldevg/aclcppdevg/aclcppdevg_03_0653.html

4、对RC和EP的理解
https://www.hiascend.com/document/detail/zh/CANNCommunityEdition/600alpha003/softwareinstall/instg/atlasdeploy_03_0095.html

5、linux向指定python安装包
云服务器上有时候会有包的问题
方法一:
找到该python环境对应地pip位置,一般是xxx/bin/pip,然后使用xxx/bin/pip install package ,或者将该指令软连接到pip,这样再使用pip install package,就可以了。

方法二:
找到该python环境地位置,如/home/ls/nanconda3/bin/python ,使用

/home/ls/anaconda3/bin/python -m pip install package
/usr/local/python3.7.5/bin/python3 -m pip install pillow

即可。

6、wget返回Cannot write to ‘resnet50.caffemodel’ (Success).
一般原因是root用户创建的文件夹,普通用户在这里没有权限写。

7、atc出现一长串的报错:
原因:该用户环境下的有关环境变量设置错误。

export DDK_PATH=$HOME/Ascend/ascend-toolkit/latest
export NPU_HOST_LIB=$DDK_PATH/runtime/lib64/stub

仔细检查下面两个语句是否为directory

8、pytorch迁移后,模型保存与加载出错:
在这里插入图片描述
原因:没有执行to(device)的模型操作
在这里插入图片描述
9、pytorch迁移后导出onnx模型出错
RuntimeError: c10::device_or_default(device_opt).type() == at_npu:🔑:NativeDeviceType INTERNAL ASSERT FAILED at “/usr1/workspace/FPTA_Daily_Plugin_open_v1.8.1-3.0.rc3/Plugin/torch_npu/csrc/aten/common/TensorFactories.cpp”:339, please report a bug to PyTorch.
device有问题,要么搞成cpu,要么搞成npu
cpu:https://www.hiascend.com/document/detail/zh/CANNCommunityEdition/600alpha003/ptmoddevg/ptmigr/ptmigr_000057.html
npu:https://gitee.com/ascend/pytorch/issues/I5QVNL?from=project-issue

10、An error occurred during the execution. Please check the log of the last step for details.
在这里插入图片描述
这个是ATC的环境没配好,仔细查看atc.log
在这里插入图片描述
寻找其中有[ERROR]标签的部分,发现是python版本不匹配,依次对比服务器上所有python版本,
发现是/usr/bin/python3的版本不对,修改软连接为3.7.5的即可。

11、保存onnx模型报错TypeError: _convolution() missing 1 required positional argument: ‘allow_tf32’ (Occurred when translating _convolution).
参考我提的这个issue:https://gitee.com/ascend/pytorch/issues/I69F2Z
官方文档缺少对allow_tf32参数的设置,导致onnx模型导出报错
修改torch/onnx/symbolic_opset9.py中def _convolution函数为:
def _convolution(g, input, weight, bias, stride, padding, dilation, transposed, output_padding, groups, benchmark, deterministic, cudnn_enabled, allow_tf32=None):

vi ~/anaconda3/envs/PyTorch-1.8.1/lib/python3.7/site-packages/torch/onnx/symbolic_opset9.py

12、mindstudio如何配置错误阈值
Error Threshold

配置自定义精度标准,取值为含两个元素的列表:[val1,val2]

val1:算子输出结果与标杆数据误差阈值,若误差大于该值则记为误差数据。
val2:误差数据在全部数据占比阈值。若误差数据在全部数据占比小于该值,则精度达标,否则精度不达标。
取值范围为[0.0,1.0]。
[0.001,0.001]表示误差超过千分之一的数据在千分之一以下

13、/tmp/8028ed5d-5ce3-479f-898b-8be2973bcc4e/testcases/st/out/sinh/run/out/main: error while loading shared libraries: libascendcl.so: cannot open shared object file: No such file or directory

ST测试出现这个问题,这个是由于LD_LIB未配置好导致的
在这里插入图片描述
在这里插入图片描述
通过echo,把结果这一段复制进去对应的空即可。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

irrationality

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值