问题描述
进入/var目录, 运行./msprof --application="python /home/HwHiAiUser/Desktio/code_npu/app.py" --output=/home/HwHiAiUser/Desktop --ascendcl=on --runtime-api=on --ai-core=on --task-time=on --aicpu=on进行性能数据收集, 然后 msprof --export=on --output=/home/HwHiAiUser/Desktop/PROF_00001_*生成结果
在mindstudio_profiler_output下只有msprof_xxx.json / op_summary.csv / prof_rule.json / task_time.csv这几个,没有op_statistic_*.csv
软件版本:
硬件是香橙派AI pro,NPU是310B4,CANN是7.0.0版本,pytorch1.11.0。
工具和kernel升级为了8.0.RC2.alpha003
需求:
我想要通过op_statistic_*.csv查看哪个环节耗时最多。目前除开首次编译的情况,运行程序还是有几步会耗时几百秒(比如十行文本识别,只有其中第1和第3行耗时异常的多,不知道是什么原因)。
解决方案
在昇腾环境下运行pytorch是属于昇腾cann和torch npu板块的,并不是mindspore框架这边的,建议去对应板块或者这个torch npu仓库下提issue,这边有负责开发torch npu扩展插件的研发人员来解答对应的问题,问答效率比较高:
https://gitee.com/ascend/pytorch/blob/master/README.zh.md
这是msprof的文档地址供参考:
https://www.hiascend.com/document/detail/zh/canncommercial/80RC1/devaids/auxiliarydevtool/atlasprofiling_16_0010.html
顺便说一下,在昇腾环境下运行pytorch模型,昇腾cann版本、pytorch版本、以及torch npu扩展插件版本都要对应好,否则可能会出现意料之外的问题,上述链接中有各个版本对应关系;
以我之前的经验来看,多次推理文本,有几次确会突然变得特别慢,很可能是什么原因导致了重新进行图编译,比如有些非动态shape的情况下,某一次推理的输入shape变化很大,就会导致重新图编译。