zjun3021-CSDN博客

原创【Ascend】AscendC编程接口，基础API和高阶API，tensor高维切分计算怎么理解？

标量计算API，实现调用Scalar计算单元执行计算的功能。矢量计算API，实现调用Vector计算单元执行计算的功能。矩阵计算API，实现调用Cube计算单元执行计算的功能。数据搬运API，计算API基于Local Memory数据进行计算，所以数据需要先从Global Memory搬运至Local Memory，再使用计算API完成计算，最后从Local Memory搬出至Global Memory。执行搬运过程的接口称之为数据搬运API，比如DataCopy接口。

2025-10-11 15:34:07 992

原创 cann-ops中的aclnnGetWorkspaceSize和aclnn是怎么生成的？

本来以为是通过类似如pytorch的autogen的方法，通过template文件进行内容替换，但发现并不是，因为文件中其他部分（如下代码），通过搜索并没有在cann-ops仓库或者是/usr/local/Ascend下，找到任何相同关键字，通过grep搜索到的也都是binary file文件信息，猜测很有可能当前是以2进制的形式存在的。不幸的是，通过从cmake文件搜寻信息，也没有找出任何替换的语句，而且定位（增加日志打印）发现，），算子调用的时候，又直接使用的是这2个接口，那这2个接口，是怎么来的呢？

2025-09-18 10:36:03 412

原创 CANN Ops：No SOURCES given to target: opsproto

对比了下，Addcmul这个名字单词并没拼错，只是名字大小写不一致，莫非是因为这个导致的？PS：研发的同学是不是应该在-n的help解释上多写上几句话的说明。中的指导进行操作的，反复检查了下，并没有发现问题。汗，最终原因就是编译算子的大小写拼音问题。到这里，猜测是算子名字写错了吗？下找proto.cpp文件。还是通过报错进行分析，打开。-n是执行单独的算子编译。果然，顺利的执行下去了。记录一下吧，以防踩坑。，查看，这里开始定义。

2025-09-17 15:25:09 334

原创 Ascend上开发自定义算子接入PyTorch有几种实现方式？

需要关注的是，如上4个文件。步骤一般是：算子yaml配置(op_plugin_functions.yaml/derivatives.yaml) -> 算子适配实现(AbsKernelNpuOpApi.cpp/AbsKernelNpu.cpp)

2025-09-02 15:17:39 1070

原创【TorchAir】遇到ERR03001 GRAPH invalid parameter问题怎么解决？

在测试TorchAir的图结构dump功能的时候，通过其举例的demo，编写脚本，遇到。首先，疑惑的是，如果不配置graph_dump的功能，以下代码是能够跑通的，参考。通过与社区同学沟通，怀疑是TorchAir的版本安装不对。发现是torch和torch_npu安装的就是2.1.0的版本，没问题。应该是dump的配置，存在不能配置的key，而可以选择配置的key是。有种懵懵的感觉，到底前面安装环境的时候，是哪一步错了。带着这个疑问，给昇腾社区提了工单。，这是有什么配置不对吗？

2025-08-27 15:25:15 346

原创 Ascendc msOpST测试报错问题

总结一句话就是，自定义算子要准确的设置和这2个环境变量，否则会执行失败。

2025-07-24 09:46:51 1168 1

原创 Ascendc helloworld编译问题

包含核函数的实现文件hello_world.cpp代码如下：核函数hello_world的核心逻辑为打印"Hello World!下面是一个简单的Ascend C的"Hello World"样例，展示了一个Ascend C核函数（设备侧实现的入口函数）的基本写法，及其如何被调用的流程。通过如下的代码工程对上述文件进行组织，您可以通过LINK获取样例工程，并参考README完成CMakeLists中的AI处理器的型号、软件包安装路径配置。，需要将bits目录添加到变量。

2025-07-23 14:37:52 530

原创【知识扫描】量化中的零点

零点（Zero Point，简称ZP）是一个整数值，代表浮点数0在整数域中的映射位置。从浮点数到整数的量化公式q是量化后的整数，f是原始浮点数，scale是缩放因子（将浮点数范围映射到整数范围的比例），zero_point是零点。从整数到浮点数的反量化公式关键点：当f = 0时，，即零点是整数域中对应浮点数0的位置。

2025-07-21 10:34:09 1410

原创【知识扫描】模型中参数参量是怎么算出来的？DeepSeeK的671B参数量分布在哪里？

为了更好地理解大语言模型（LLM）中的参数量是如何计算出来的，我们可以以一个简化版的Transformer模型为例来说明。假设我们有一个包含6层编码器的Transformer模型，每层包括一个多头自注意力机制和前馈神经网络（Feed-Forward Neural Network, FFN），模型维度dmodeld_{model}dmodel为512，前馈网络的维度dffd_{ff}dff为2048，注意力头数为8。

2025-07-18 10:10:15 1519

原创【知识扫盲】tokenizer.json中的vocab和merges是什么？

vocab：是子词到 ID 的映射表，它能将文本转换为模型可以处理的数字形式。merges：是子词合并规则，它决定了如何从基础字符构建出子词。相互关系merges规则生成子词，而vocab负责存储这些子词并为它们分配 ID。通过这种方式，子词分词器能够在处理常见词时保持完整性，同时将罕见词拆分成有意义的片段，有效平衡了词汇表的大小和表达能力。

2025-07-15 16:37:13 1179

原创在NPU平台上，如何尝试跑通Ktransformers + DeepSeek R1？

KTransformers是一个灵活的、以Python为中心的框架，其核心是可扩展性。通过用一行代码实现和注入一个优化的模块，用户可以访问与Transformers兼容的接口、兼容OpenAI和Ollama的RESTful API，甚至是一个简化的类似ChatGPT的Web UI。仓库地址：https://github.com/kvcache-ai/ktransformers考虑到vLLM已经是大规模部署优化的优秀框架，KTransformers特别关注受有限资源限制的本地部署。

2025-06-25 19:52:31 916 2

原创 MindIE服务化性能MindIE service如何调优？首token时延限制严格，非首token时延也有限制

MindIE Service是面向通用模型场景的推理服务化框架，通过开放、可扩展的推理服务化平台架构提供推理服务化能力，支持对接业界主流推理框架接口，满足大语言模型的高性能推理需求。

2025-06-20 14:22:07 1260

原创 MindIE服务化性能MindIE service如何调优？限制非首token时延的极限吞吐

MindIE Service是面向通用模型场景的推理服务化框架，通过开放、可扩展的推理服务化平台架构提供推理服务化能力，支持对接业界主流推理框架接口，满足大语言模型的高性能推理需求。

2025-06-20 14:18:25 1144

原创 MindIE服务化性能MindIE service如何调优？不考虑时延的极限吞吐场景

MindIE Service是面向通用模型场景的推理服务化框架，通过开放、可扩展的推理服务化平台架构提供推理服务化能力，支持对接业界主流推理框架接口，满足大语言模型的高性能推理需求。

2025-06-20 14:14:34 1360

原创 Ascend如何测试集合通信（HCCL）的功能正确性以及性能？

INSTALL_DIR”是CANN软件安装后文件存储路径，其中“/usr/local/Ascend”为root用户的默认安装路径，如果使用普通用户安装，或指定路径安装，请自行替换。“INSTALL_DIR”是CANN软件安装后文件存储路径，其中“/usr/local/Ascend”为root用户的默认安装路径，如果使用普通用户安装，或指定路径安装，请自行替换。“/usr/local/mpich”以及“/usr/local/openmpi”为MPI安装路径，请根据实际情况替换。

2025-06-20 10:30:41 1279

原创 Ascend上如何进行通信带宽测试

以不带参数为例（不带参数则默认查询在Device 0，以h2d、d2h、d2d三个数据流向和步长模式显示的带宽耗时信息）。以测试数据从Host侧传输到Device 0，迭代100次的带宽与总耗时为例。以测试数据从源头Device 0传输到目标Device 1的p2p测试为例。以测试数据从Device侧传输到同一Device侧的带宽与总耗时为例。测试指定源头Device到目标Device的传输速率和总耗时。不指定源头Device和目标Device的p2p样例。所示信息，表示工具运行正常，图中参数介绍如。

2025-06-19 18:58:55 1509

原创在ARM+Ascend NPU上适配Step-Audio模型

Step-Audio 是业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统，支持多语言对话（如中文，英文，日语），语音情感（如开心，悲伤），方言（如粤语，四川话），可控制语速及韵律风格，支持RAP和哼唱等。其核心技术突破体现在以下四大技术亮点：• 1300亿多模态模型: 单模型能实现理解生成一体化完成语音识别、语义理解、对话、语音克隆、语音生成等功能，开源千亿参数多模态模型 Step-Audio-Chat。

2025-06-09 20:06:23 1321

原创 Ascend NPU上适配Step-Audio模型

Step-Audio 是业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统，支持多语言对话（如中文，英文，日语），语音情感（如开心，悲伤），方言（如粤语，四川话），可控制语速及韵律风格，支持RAP和哼唱等。其核心技术突破体现在以下四大技术亮点：1300亿多模态模型: 单模型能实现理解生成一体化完成语音识别、语义理解、对话、语音克隆、语音生成等功能，开源千亿参数多模态模型 Step-Audio-Chat。

2025-06-09 19:49:24 1119

原创 Ascend NPU上适配Step1X-Edit模型

Step1X-Edit：一个在各种真实用户指令下表现出现的统一图像编辑模型。Step1X-Edit，其性能可与 GPT-4o 和 Gemini2 Flash 等闭源模型相媲美。更具体地说，我们采用了多模态LLM 来处理参考图像和用户的编辑指令。我们提取了潜在嵌入，并将其与扩散图像解码器相结合，从而获得目标图像。为了训练模型，我们建立了一个数据生成管道，以生成高质量的数据集。为了进行评估，我们开发了 GEdit-Bench，这是一种植根于真实世界用户指令的新型基准。

2025-06-09 19:31:54 1056

原创【知识扫盲】分布式系统架构或分布式服务中的管理面，数据面和业务面

层级英文名职责关键组件举例数据面Data Plane处理用户请求、模型推理、输入输出数据转换等核心任务模型服务引擎、Tokenizer/Detokenizer、推理加速器（TensorRT、ONNX Runtime）业务面用户交互、API 接口、权限控制、结果封装等RESTful API 服务、身份认证、前端界面、日志记录管理面资源调度、监控、配置管理、模型部署、弹性伸缩等Kubernetes 控制器、Prometheus 监控、模型仓库、配额系统。

2025-06-07 08:36:51 814

原创【知识扫盲】如何由inq，ouq和totaltime计算tokens/s

指标公式整体吞吐量（token/s）Batchsize×In_seqOut_seqTotal timeTotal timeBatchsize×In_seqOut_seq生成吞吐量（token/s）Batchsize×Out_seqTotal timeTotal timeBatchsize×Out_seq首 token 延迟（ms）单个 token 平均延迟参数名值Batchsize1In_seq1024Out_seq102419.88901。

2025-06-06 22:25:55 1010

原创 AllToAll通信为什么用于EP并行？

EP并行一般使用在MOE层，先了解下什么是MOE。

2025-05-23 00:05:10 1327 1

原创 Ascend的aclgraph（十）另外一种成图方式GeConcreteGraph

您可以在调用该接口后，调用GetCompiledGraphSummary获取图编译结果的概要信息（比如模型执行所需的内存资源大小及内存是否可刷新、复用等），根据查询到的内存大小，自行申请并管理内存；您可以配合编译后Graph资源占用查询接口、内存的基地址刷新接口来使用，达到自行管理模型内存、获得更多灵活性的目的。ge中涉及到的代码页比较复杂，本篇还是关注ge图与torch.compile对接，不深入探讨ge细节。包含了图编译过程，并在编译完成后进行模型所需内存资源的初始化，生成可用于执行的模型。

2025-05-16 11:28:59 1247

原创 Ascend的aclgraph（九）e2e执行aclgraph

前面的几章内容探讨了aclgraph运行过程中的涉及到的关键模块和技术。本章节将前面涉及到的模块串联起来，对aclgraph形成一个端到端的了解。由于例子中的Model()是个fn, torch.nn.Module对象，因此走到下面的代码分支。调用的接口相同，但是这里却是没有传入congfig参数，一切都是默认的。，那么npu_backend 返回的就是一个可以执行的model对象。）以后的版本上aclgraph模式才得以支持，是可以运行起来的。依旧从代码的角度，看下是如何一步步执行下去的。

2025-05-15 17:08:23 631

原创 Ascend的aclgraph（八）AclConcreteGraph：capture_end

capture_end的逻辑相对简单。下一步，梳理清楚torch.compile中的FX graph和AclmdlRICaptureBegin与AclmdlRICaptureEnd抓的图是什么关系。

2025-05-14 17:42:05 484

原创 Ascend的aclgraph（七）AclConcreteGraph：capture_begin

在aclmdlRICaptureBegin和aclmdlRICaptureEnd接口之间捕获到的任务会暂存在系统内部模型运行实例中，随着任务数量的增加，以及通过Event推导、内部任务的操作，导致更多的Stream进入捕获状态，Stream资源被不断消耗，最终可能会导致Stream资源不足（Stream数量限制请参见aclrtCreateStream），因此需提前规划好Stream的使用、关注捕获的任务数量。接口之间捕获的任务，若要更新任务（包含任务本身以及任务的参数信息），则需在。

2025-05-14 15:50:16 1214

原创 Ascend的aclgraph（六）AclConcreteGraph

当你使用 torch.profiler.profile 来分析你的模型时，record_function 标记的部分会在分析结果中以你指定的名字出现，使得分析报告更易于理解。回到warmup阶段。代码中并未标注该warmup过程的作用，不过在前几篇的介绍中提到在图运行前进行warmup操作，可以生成一些缓存，避免在真正运行时候产生的编译时间开销。总之，fx.Interpreter 的 run 方法提供了一种直接且灵活的方式来执行 torch.fx 计算图，使得开发者可以更容易地进行模型调试、变换及优化。

2025-05-13 19:24:15 1111

原创 Ascend的aclgraph（五）PrimTorch & TorchInductor

在inductor的默认实现中调用的是compile_fx_inner，而其中的核心函数是。

2025-05-12 19:26:33 1332

原创 Ascend的aclgraph（四）AOT Autograd

在前期分析的torchair的源代码中，FX Graph是complie相关函数输入的第一个参数，joint graph，default_partition，call_function都是常见的对象，看完本篇，相应大家对这些概念有个基础的了解。下一篇张，主要介绍Inductor相关的优化部分。

2025-05-12 19:06:20 1225

原创 Ascend的aclgraph（三）TorchDynamo

针对TorchDynamo的介绍，该文章已经讲的比较仔细，本篇文章，主要是基于原文并加上自己的理解介绍。在上一篇，解释了torch.compile出现的背景并初步了解了其使用和基础组。先回顾下torch.compile主要包含四个：从python bytecode中解析构建计算图，是一个动态的、Python级别的编译器，旨在捕捉 PyTorch 模型的动态执行路径，将其转换为优化代码，实现bytecode-to-bytecode编译。

2025-05-12 16:16:20 1296

原创 Ascend的aclgraph（二）_npu_backend中还有些什么秘密？

从如上的定义：深度学习编译器，可为多种加速器和后端生成代码，生成OpenAI Triton(Nvidia/AMD GPU)和OpenMP/C++(CPU)代码。也就是说，这种后端的作用，是为了生成能够执行的代码。那是否可以自己自定义后端实现？来来来，试一下。

2025-05-09 20:46:47 1466

原创 Ascend的aclgraph（一）aclgraph是什么？torchair又是怎么成图的？

在 torch.fx 中，no_dispatch 上下文用于临时关闭 Python 的调度机制（dispatch mechanism），这通常涉及到自动求导（autograd）、函数转换（如将Python函数转换为计算图中的节点）等过程。此外，由于其内部维护了一个计算图，它还支持进一步的分析和变换，这使得它成为实现高级功能（如量化、剪枝等）的理想选择。FX 是 PyTorch 提供的一个用于模型变换和分析的高级工具集，它允许用户对 PyTorch 模型执行图级别的操作，如插入、删除或修改计算图中的节点。

2025-05-09 17:03:26 2996

原创 vllm+vllm-ascend本地部署QwQ-32B

基础镜像地址：https://quay.io/repository/ascend/vllm-ascend?具体可以参考链接：https://vllm-ascend.readthedocs.io/en/latest/installation.html。/xxx/models/llmmodels是宿主机放模型的目录，/usr1/project/models是容器内目录。/usr1/project/models/QwQ-32B：模型路径。served-model-name：接口调用需要传入的模型名称。

2025-04-21 19:24:12 1382

原创【知识扫盲】per-token/per-channel/per-token量化

这三种是模型量化中常见的不同粒度策略，主要区别在于它们应用量化的维度不同。通过合理选择量化粒度，可以在模型大小、推理速度和精度之间取得最佳平衡。

2025-04-11 14:48:21 2740

原创初识华为RazorAttention

文中提出的RazorAttention是目前业界唯一的静态KV Cache压缩算法，一方面没有在线动态计算开销（既不依赖Attention score，也不涉及在线Topk计算），类似PTQ仅需少量输入样本进行离线校准，便可轻量快捷的决定Attention稀疏模式；另一方面能与FlashAttention等主流融合算子兼容，无明显overhead。

2025-04-07 19:52:15 610

原创 NPU上如何使能pytorch图模式

PyTorch 的 torch.compile 是一个强大的功能，用于优化 PyTorch 模型的性能。它通过将 PyTorch 的动态图转换为静态图，并利用 Just-In-Time（JIT）编译技术，显著提高模型的推理速度和训练效率。

2025-03-24 15:27:48 1351

原创 NPU上运行onnxruntime

显示的是cuda的组件找不到。由于是Ascend环境，肯定是没有GPU的，很明显是onnxruntime的包装错了。那么该如何才能构建onnxruntime适配Ascend上的whl包呢？通过如上命令，可以看到环境上确实安装的是gpu版本的。注意**–use_cann**参数。

2025-03-10 19:45:36 1450

原创 MindIE BenchMark

服务化MindIE Benchmark工具是通过部署昇腾服务化配套包后，以调用终端命令的方式测试大语言模型在不同配置参数下的推理性能和精度，并通过表格的形式展示模型在各个阶段的推理耗时（例如FirstTokenTime、DecodeTime等），以及对应时延的平均值、最小值、最大值、75分位（P75）、90分位（P90、SLO_P90）和99分位（P99）概率统计值，最后将计算结果保存到本地csv文件中。它包括：需要计算和推理的自然科学，需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。

2025-02-24 19:44:27 1354

原创 Ascend+FastAPI+ Uvicorn 实现推理

Uvicorn是一个基于ASGI（AsynchronousServerGatewayInterface）的轻量级异步服务器，用于运行PythonWeb应用程序，特别是那些基于ASGI的现代异步框架，如FastAPI、Starlette等。在这个例子中，我们定义了两个路由：一个根路由/和一个带参数的路由/items/{item_id}。然后就是，以FastAPI+Uvicorn启动一个web服务，通过generate_chat_output运行推理，获取推理结果。

2025-01-20 09:13:48 1102

原创 vim配置

【代码】vim配置。

2025-01-17 10:12:29 248

virtio协议

空空如也