1、/home/HwHiAiUser/samples_1/cplusplus/level2_simple_inference/1_classification/resnet50_imagenet_classification/src/…/inc/utils.h:13:10: fatal error: acl/acl.h: No such file or directory
#include “acl/acl.h”
原因:放错了DDK——PATH
export DDK_PATH=$HOME/Ascend/ascend-toolkit/latest
export NPU_HOST_LIB=$DDK_PATH/runtime/lib64/stub
仔细检查下面两个语句是否为directory
2、[ERROR] input image size[602112] is not equal to model input size[301056]
[ERROR] memcpy device buffer failed, index is 0
我排除了
sample_process.cpp
model
caffe_model
最后发现居然不知道是自己好久手抽,导致把transferPic.py的代码给改错了(仔细观察其中与模型输入有关的部分),现在终于对了。
3、ascend错误代码在哪里查看
https://www.hiascend.com/document/detail/zh/CANNCommunityEdition/600alpha003/infacldevg/aclcppdevg/aclcppdevg_03_0653.html
4、对RC和EP的理解
https://www.hiascend.com/document/detail/zh/CANNCommunityEdition/600alpha003/softwareinstall/instg/atlasdeploy_03_0095.html
5、linux向指定python安装包
云服务器上有时候会有包的问题
方法一:
找到该python环境对应地pip位置,一般是xxx/bin/pip,然后使用xxx/bin/pip install package ,或者将该指令软连接到pip,这样再使用pip install package,就可以了。
方法二:
找到该python环境地位置,如/home/ls/nanconda3/bin/python ,使用
/home/ls/anaconda3/bin/python -m pip install package
/usr/local/python3.7.5/bin/python3 -m pip install pillow
即可。
6、wget返回Cannot write to ‘resnet50.caffemodel’ (Success).
一般原因是root用户创建的文件夹,普通用户在这里没有权限写。
7、atc出现一长串的报错:
原因:该用户环境下的有关环境变量设置错误。
export DDK_PATH=$HOME/Ascend/ascend-toolkit/latest
export NPU_HOST_LIB=$DDK_PATH/runtime/lib64/stub
仔细检查下面两个语句是否为directory
8、pytorch迁移后,模型保存与加载出错:
原因:没有执行to(device)的模型操作
9、pytorch迁移后导出onnx模型出错
RuntimeError: c10::device_or_default(device_opt).type() == at_npu:🔑:NativeDeviceType INTERNAL ASSERT FAILED at “/usr1/workspace/FPTA_Daily_Plugin_open_v1.8.1-3.0.rc3/Plugin/torch_npu/csrc/aten/common/TensorFactories.cpp”:339, please report a bug to PyTorch.
device有问题,要么搞成cpu,要么搞成npu
cpu:https://www.hiascend.com/document/detail/zh/CANNCommunityEdition/600alpha003/ptmoddevg/ptmigr/ptmigr_000057.html
npu:https://gitee.com/ascend/pytorch/issues/I5QVNL?from=project-issue
10、An error occurred during the execution. Please check the log of the last step for details.
这个是ATC的环境没配好,仔细查看atc.log
寻找其中有[ERROR]标签的部分,发现是python版本不匹配,依次对比服务器上所有python版本,
发现是/usr/bin/python3的版本不对,修改软连接为3.7.5的即可。
11、保存onnx模型报错TypeError: _convolution() missing 1 required positional argument: ‘allow_tf32’ (Occurred when translating _convolution).
参考我提的这个issue:https://gitee.com/ascend/pytorch/issues/I69F2Z
官方文档缺少对allow_tf32参数的设置,导致onnx模型导出报错
修改torch/onnx/symbolic_opset9.py中def _convolution函数为:
def _convolution(g, input, weight, bias, stride, padding, dilation, transposed, output_padding, groups, benchmark, deterministic, cudnn_enabled, allow_tf32=None):
vi ~/anaconda3/envs/PyTorch-1.8.1/lib/python3.7/site-packages/torch/onnx/symbolic_opset9.py
12、mindstudio如何配置错误阈值
Error Threshold
配置自定义精度标准,取值为含两个元素的列表:[val1,val2]
val1:算子输出结果与标杆数据误差阈值,若误差大于该值则记为误差数据。
val2:误差数据在全部数据占比阈值。若误差数据在全部数据占比小于该值,则精度达标,否则精度不达标。
取值范围为[0.0,1.0]。
[0.001,0.001]表示误差超过千分之一的数据在千分之一以下
13、/tmp/8028ed5d-5ce3-479f-898b-8be2973bcc4e/testcases/st/out/sinh/run/out/main: error while loading shared libraries: libascendcl.so: cannot open shared object file: No such file or directory
ST测试出现这个问题,这个是由于LD_LIB未配置好导致的
通过echo,把结果这一段复制进去对应的空即可。