wuli_滔滔-CSDN博客

原创 el-table 合并行序号保持自增

el-table 合并行且序号保持自增整体思路：合并表格的行，在获取数据的同时把遍历表格数据进行排序（由于el-table只能合并相邻两行，因此要先进行排序），排序后遍历表格数据，通过以用户id或者其他想要合并的条件进行判断；合并行：在data()中新加colmap:[],每次遍历时把数据的下标存入colmap[]中，以行的下标为key，把每行需要合并的行数为value，遍历时判断这一次的数据和上一次数据中的用户id是否相同，当然也可以把其他字段当作判断标准，如果相同则把colmap中对应下标

2021-12-21 11:17:32 2978

原创 Spire.doc花式生成doc文件

Spire.doc花式生成word文件前段时间研究了一个月的java生成word的方法，中间试了itext2、5、7 模板freemaker poi等等第三方的工具，但是终究没有一个能达到我期望的目标的，尤其是itext，占用了我一大半时间搞，结果最终效果差强人意，最终还是选择了spire这款工具。前期网上找的资料大部分都是免费的，spire资料少之又少，可能和它是收费的有关系吧（手动...

2019-09-23 18:11:27 3853

原创 HCCL错误恢复超时重试与拓扑重建机制

HCCL分布式训练错误恢复机制解析摘要：本文深入分析了HCCL在大规模分布式训练中的错误恢复机制，重点探讨了超时重试与拓扑重建的实现原理。通过源码分析/hccl/error/recovery_handler.cpp，揭示了HCCL_TIMEOUT环境变量的生效流程和分层超时控制设计。测试表明，该机制能将训练中断时间从分钟级降至秒级，可靠性提升至99.9%。文章包含完整的实现方案、调优指南和实战案例，展示了如何通过增量式恢复策略、智能重试算法和并行拓扑重建等技术，显著提升分布式训练的稳定性。特别对千卡集群的

2026-02-07 07:59:12 522

原创 hcomm主机通信层 CPU-GPU数据同步与事件等待优化实战

本文深入解析CANN算子库中hcomm主机通信层的核心设计，聚焦于内CPU与GPU（或NPU）间的数据同步机制。文章将重点剖析事件的插入逻辑与等待策略，揭示其如何通过精细的事件依赖管理实现计算任务与通信任务的高效重叠。我们将通过真实的代码片段、mermaid架构图以及性能对比数据，展示一套行之有效的异步调度优化方案。最后，结合企业级实战案例，提供从代码实现到故障排查的一站式指南，帮助开发者彻底掌握高性能算子开发的关键技术。

2026-02-07 07:56:06 495

原创共享内存通信shmem进程间零拷贝实现与权限控制实战解析

它的核心思想是，在系统内存中开辟一块特殊区域，这块区域可以被多个进程（例如CPU进程和NPU的守护进程）直接映射到自己的地址空间。：对于GB级别的大容量共享内存，使用大页内存（如2MB或1GB的页）可以减少页表项（Page Table Entry）数量，降低TLB Miss，带来约5%-10%的性能提升。：在对共享内存进行数据布局时，保证关键数据结构的起始地址与缓存行（Cache Line，通常64字节）对齐，可以避免伪共享（False Sharing），极大提升多核并发性能。我认为，未来的趋势会是。

2026-02-07 07:53:33 633

原创 HCCL Ring-AllReduce源码解析拓扑感知路由与HCCS互联优化

摘要：本文深入解析HCCL中Ring-AllReduce算法的核心实现，重点分析build_ring()函数的拓扑感知路由与HCCS互联优化技术。通过8卡910B处理器实测，ResNet50训练通信耗时降低22%，带宽利用率提升至92%。包含源码实现、性能优化技巧及故障排查方案，为分布式训练提供通信优化参考，展现HCCL在NUMA感知、PCIe路由等方面的技术创新。

2026-02-07 07:51:08 681

原创算子安全边界实战解析 conv2d_validator.cpp输入校验与越界防护

本文深入解析CANN项目中卷积算子的安全校验机制，重点探讨conv2d_validator.cpp实现的三层防护体系：编译期静态检查、运行时动态验证和异常安全处理。通过ACL_CHECK_SHAPE宏的展开机制分析，展示了零运行时开销的错误检测技术，并提供了完整的测试用例与性能数据，证明分层校验策略可有效平衡安全与性能。文章还包含企业级实践方案，如分布式环境校验、内存越界诊断工具等，为AI工程化部署提供可靠的安全保障框架。研究结果表明，这种防御性编程方法能将90%的安全问题提前到开发阶段发现，大幅降低生产环

2026-02-07 07:47:22 511

原创图自动融合技术内核解析 PatternMatcher递归匹配算法实战

本文深入解析CANN图引擎中自动融合(AutoFusion)模块的核心算法PatternMatcher的实现原理。该递归匹配算法采用深度优先搜索策略，通过检查节点类型和输入边数量实现计算图模式匹配。文章详细阐述了算法架构设计、时间复杂度分析(最佳O(n)、最坏O(n²))，并以Conv+SiLU融合规则为例，展示了从模式定义、注册到验证的完整实现流程。通过企业级案例证明，合理应用该技术可使模型推理速度提升3-5倍，内存占用减少42%。文章还提供了性能优化技巧(缓存、并行化)和调试方法(可视化、热点分析)，为

2026-02-06 20:12:34 496

原创图引擎算子元数据定义与注册机制深度解密

摘要：本文深入剖析GE（GraphEngine）算子元数据定义与注册机制的技术原理，以卷积算子为例展示input_desc、attr等关键字段如何驱动图优化。通过声明式编程范式，GE将算子计算特征与执行逻辑解耦，使框架在编译期即可完成优化决策。文章详细解析了元数据驱动的算子融合、内存优化等核心算法实现，并提供了完整的代码示例和分步实施指南。实践表明，合理的元数据定义可带来15-40%的性能提升。文中还分享了企业级应用案例、性能优化技巧及故障排查方法，为AI框架开发者提供了一套可落地的元数据设计方法论。

2026-02-06 20:08:43 448

原创 Graph Engine编译全流程解析 ONNX到OM转换链路核心剖析

本文深度解析GraphEngine（GE）编译器将ONNX模型转换为OM格式的全流程，重点剖析Parse（解析）、Optimize（优化）、Serialize（序列化）三大核心阶段的技术实现。通过分层架构设计（应用层→编译层→执行层）和基于IR的编译方法，GE实现了多框架支持与统一优化。关键技术包括算子融合（性能提升30%+）、内存复用（内存占用降低40%）和多流并行等。文章提供完整代码示例、性能测试数据（如ResNet-50模型编译耗时分布）和常见错误解决方案（如动态Shape处理），并展望自适应编译等未

2026-02-06 20:04:00 607

原创 HCCL通信拓扑可视化 PCIe NVLink连接图生成实战

《HCCL通信拓扑可视化实战：从硬件盲区到性能洞察》摘要本文针对多卡训练中的通信瓶颈问题，深入解析了HCCL工具库中的topology_visualizer.py脚本。通过将复杂的PCIe/NVLink连接JSON数据转化为直观拓扑图，该工具能快速验证硬件连接、优化数据流路径，并为HierarchicalAllReduce等算法提供决策依据。文章详细讲解了拓扑数据解析逻辑、可视化脚本核心算法，并提供了8卡集群优化实战案例。特别强调：当8卡训练效率低于预期时，通过拓扑图可快速定位物理连接问题，结合层次化Al

2026-02-06 19:59:01 717

原创图编译错误智能诊断：ge/error/suggestion_engine.cpp 根因推荐与修复方案生成

摘要：本文深入解析图编译器(GE)的错误诊断机制，重点剖析/ge/error/suggestion_engine.cpp文件如何通过规则引擎将晦涩的系统错误转化为可操作的修复建议。文章揭示了该引擎采用规则库驱动的三层架构：1）基于错误码和算子类型的初级匹配；2）自定义函数实现的精细判断；3）模板填充生成完整建议。通过真实案例（如卷积算子形状错误、废弃配置项检测）展示了智能诊断的价值，并提供定制规则、性能优化等实战技巧。这种将系统错误"翻译"为开发者语言的机制，可显著提升模型部署效率，减少

2026-02-06 19:32:04 593

原创 30分钟构建企业级多集群应用管理平台

摘要：本文介绍如何利用Kurator快速构建多集群应用分发平台，实现跨云跨地域的统一应用部署。Kurator基于Kubernetes生态，提供资源编排、调度、流量管理和监控四大核心能力，通过Fleet管理实现集群统一管控。文章包含30分钟快速搭建指南，从环境准备到生产部署全流程，并详细介绍OverridePolicy等高级控制策略。实践表明，使用Kurator可将应用部署时间从数天缩短至分钟级，降低80%配置错误率，显著提升多云环境下的运维效率和应用交付速度。

2025-12-18 23:50:44 840

原创数据排布的艺术-Ascend C中最大化存储效率的格式选择

本文深入探讨了昇腾NPU数据排布格式（DataLayout）的优化原理与技术演进。从NCHW/NHWC到NC1HWC0再到FRACTAL_NZ，详细解析了每种格式对应的硬件计算粒度与内存访问模式，并提供了完整的AscendC格式转换算子实现。文章重点分享了五大格式优化黄金法则，包括硬件粒度对齐、访问连续性优先等核心原则，以及在千亿参数大模型训练中的实战经验。同时展望了面向稀疏计算与存算一体的下一代数据排布范式，指出AI自动格式优化将成为未来趋势。通过精确匹配硬件特性，数据排布优化可将矩阵乘法的有效内存带宽从

2025-12-17 23:58:28 859

原创性能画像师：使用torch_npu.profiler进行Ascend算子深度性能剖析

本文系统介绍torch_npu.profiler在昇腾AI生态中的性能分析方法论。通过Matmul算子案例，详细解析Timeline、OperatorSummary、KernelDetails三大报告，展示如何识别计算与访存瓶颈。文章包含5个架构图、完整代码示例及实测数据，构建从数据采集到优化决策的完整体系。核心内容包括：1）torch_npu.profiler三层采集架构与指标体系；2）性能瓶颈定位实战（计算/访存/同步瓶颈）；3）企业级优化案例（训练吞吐提升2.8倍，推理延迟降低73%）；4）性能监控预

2025-12-17 23:57:43 1017

原创昇腾AI算子开发全景图与Ascend C生态定位

本文深入解析华为昇腾AI处理器算子开发技术，重点探讨AscendC在CANN软件生态中的核心定位与开发实践。文章从CANN三明治架构切入，详细阐述Aclnn接口的两段式设计哲学，并通过完整案例演示从算子开发到PyTorch集成的全流程。内容涵盖：1）AscendC的硬件友好特性与性能优势；2）Aclnn接口的资源计算分离设计；3）工业级开发流程与Pybind11封装技巧；4）性能优化策略与故障排查经验。文章强调AscendC作为连接AI框架与硬件的关键层，在追求极致性能场景下的不可替代性，为开发者提供从理论

2025-12-16 19:14:37 1125

原创模型训练中的精度保障：Ascend C算子数值稳定性分析

本文深入探讨了AI芯片算子在模型训练中的数值精度保障机制。通过分析浮点数误差传播、混合精度稳定性和关键算子实现，提出了完整的数值优化方案。重点解析了Softmax稳定算法、LayerNorm优化和注意力机制精度控制，并结合InternVL3、YOLOv7等模型实测数据验证了数值误差对训练效果的影响。文章还介绍了数值异常检测系统、精度验证工具等企业级解决方案，为开发者提供了从理论分析到工程实践的全套技术指导。

2025-12-16 19:04:43 1061

原创实现形状推导：Ascend C Host侧Shape推导函数开发指南

摘要：本文系统阐述了Ascend C Host侧Shape推导函数的设计原理与工程实践，深入解析了InferShape机制在CANN架构中的核心作用。通过BroadcastAdd算子案例，展示了从算子原型定义到Shape推导的全链路开发流程，涵盖广播规则、动态变量传递、边界条件处理等关键技术。实测表明，合理的Shape推导设计可降低动态Shape算子60%以上的内存分配开销，同时保持99.9%的运行时稳定性。文章还提供了企业级推荐系统中的动态Shape处理经验、性能优化技巧（如编译期推导、内存预分配）以及

2025-12-14 22:58:20 880

原创数据洪流的精妙疏导：Ascend C内存层级与数据搬运优化实战

内存优化不是一门技术，而是一门艺术。技术有标准答案，艺术则需要创造力和直觉。Ascend C通过其精细的内存层级设计和丰富的数据搬运原语，为我们提供了优质的"画布"和"颜料"。但最终能否创作出性能的"杰作"，取决于开发者对硬件特性的深刻理解、对数据流动的敏锐直觉，以及不断试错的勇气。"不要满足于让代码跑起来，要追求让硬件'唱起歌来'"。当你的数据在DDR、L1、UB、Register之间如行云流水般穿梭，当计算单元几乎看不到空闲周期，当性能曲线接近理论极限时——你会感受到那种属于工程师的独特美感。

2025-12-14 22:38:12 715

原创基于MlaProlog核间同步原理的大规模分布式算子设计

本文深入解析了基于昇腾AI处理器的MlaProlog核间同步机制，提出分层同步架构、细粒度通信优化和分布式流水线编排三大核心技术。通过256核环境下的实测数据验证，该方案相比传统MPI屏障同步可降低68.4%的同步开销，提升129.6%的训练吞吐量，实现近线性加速比。文章详细阐述了分布式注意力机制的完整实现，包括Softmax同步优化等关键技术，并分享了企业级应用中的性能优化技巧和故障排查方法，为超大规模AI模型训练提供了有效的同步解决方案。

2025-12-11 16:24:03 1029

原创 Triton - Ascend算子调试与性能优化全链路实战：从Kernel入门到系统级调优

本文深入探讨了在昇腾（Ascend）硬件平台上使用Triton框架进行高性能算子开发的全流程技术体系。从架构设计理念出发，解析了Triton kernel与Ascend NPU的协同工作原理，提出三维并行度优化模型和多层次内存访问优化策略。文章包含完整可运行代码示例、基于真实硬件性能数据的优化分析、企业级实践案例和系统化故障排查方法。特别针对矩阵乘法、GELU激活函数等核心算子，详细展示了从原型设计到生产部署的完整开发流程，并提供了性能调优技巧和常见问题解决方案。通过实测数据对比，验证了Triton在昇腾平

2025-12-09 20:14:28 1442 1

原创 DevUI云控制台实战：多云管理平台前端架构解密

本文深度解析基于DevUI的多云管理平台前端架构，提出统一控制平面插件化云适配状态同步引擎三大核心技术方案。通过云厂商抽象层资源拓扑管理实时数据同步等创新设计，解决多云环境下的一致体验、性能瓶颈和数据一致性难题。文章包含完整的架构设计、核心算法实现、以及在云Stack项目中的实战验证，为企业级多云管理平台提供可落地的前端解决方案。🎯 架构创新：统一控制平面解决多云管理难题⚡ 生产验证：云Stack等大型项目实战检验🔧 完整方案：从架构设计到代码实现的完整方案🚀 性能卓越。

2025-12-04 00:53:10 900 1

原创 MateChat思维链（Chain-of-Thought）技术解析：复杂推理任务分解策略

本文深度解析MateChat思维链（Chain-of-Thought, CoT）技术的架构设计与实现方案。面对复杂推理任务中LLM直接生成准确率低的问题（数学推理<40%，逻辑推理<50%），我们提出多粒度思维链分解框架，实现从问题理解、子问题分解、逐步推理到结果验证的完整推理链条。通过完整的Python代码实现，展示如何将复杂问题分解准确率提升至85%+，推理质量提升2.3倍。文章包含代码分析、数学证明、多步决策等企业级实战场景，为构建可靠AI推理系统提供完整方案。关键词。

2025-12-04 00:47:44 757

原创 DevUI弹窗体系重构：微前端场景下的模态管理策略

本文提出了一种基于DevUI的全局模态管理系统(GMMS)，用于解决微前端架构下的弹窗管理难题。该系统通过Portal传送门技术、Z-Index堆栈管理和跨应用事件总线三大核心机制，有效解决了弹窗层级错乱、样式隔离冲突和生命周期管理等痛点。文章详细介绍了系统架构设计、核心算法实现（包括基于最小堆的优先级队列和React Portal技术），并分享了在MateChat大型项目中的实战经验。该系统显著提升了复杂前端应用的弹窗治理能力，将弹窗层级错误率从23.5%降至0.3%，内存使用峰值降低33%，为微前端

2025-12-03 23:59:08 1200

原创 Ascend C编程模型初探 - 从硬件架构到编程范式

本文深入解析AscendC编程模型与昇腾达芬奇架构的映射关系，通过Pow算子案例展示完整开发流程。从Cube/Vector计算单元特性到多级存储体系优化，详细讲解核函数设计、流水线并行和DoubleBuffer等关键技术。实战部分包含架构解析图、性能对比数据和完整代码实现，最终在推荐系统案例中实现1.2ms延迟和12万QPS的优化成果。文章还提供故障排查指南，并探讨AI算子开发的未来趋势，为开发者提供从理论到实践的AscendC深度编程指南。

2025-12-01 15:19:49 978

原创矩阵乘法的NPU硬件加速：Ascend C在Transformer模型中的底层优化

本文深入探讨了Transformer模型中矩阵乘法(Matmul)的核心地位及其在昇腾NPU上的优化技术。文章系统性地分析了Matmul在Transformer中的三种计算模式，详细解析了达芬奇架构的硬件特性与存储优化策略，并重点介绍了AscendC编程模型中的关键技术：数据分块、双缓冲和计算搬运重叠。通过完整的自注意力模块实现案例，展示了如何将理论优化转化为实际性能提升，最终在2048×2048矩阵尺寸下实现了197%的性能提升。文章还提供了企业级优化案例、常见问题排查指南，并对AscendC技术发展趋势

2025-12-01 15:06:01 879

原创【贡献经历】从零开始为Kurator编写一个集成测试用例：深度解析测试框架与实战指南

本文基于Kurator多集群应用分发测试实践，详细解析了测试框架架构设计与实现。文章从测试环境搭建（Kind集群）、测试用例设计到核心API验证，完整展示了集成测试流程。重点包括多集群环境管理、并行测试执行、性能基准测试及故障注入等关键技术，通过实际测试代码示例说明如何验证应用分发正确性。测试优化策略涵盖集群复用、智能超时等技巧，实战效果显示测试覆盖率提升至85%，回归问题减少70%。为云原生开发者提供了从理论到实践的完整测试方案参考。

2025-11-29 10:26:10 903 5

原创【探索实战】深入浅出：使用Kurator Fleet实现跨云集群的统一应用分发

《Kurator统一应用分发实战指南》摘要 Kurator作为华为云开源的分布式云原生平台，通过"一栈式"整合Kubernetes、Karmada、Istio等技术栈，有效解决了多云环境下的应用分发挑战。本文从架构原理到实战操作，详细解析了Kurator的核心技术：架构设计采用Fleet概念模型，将多集群抽象为逻辑编组，实现统一管理基于GitOps的工作流和差异化配置策略算法，确保应用版本一致性实战演示包括环境搭建、集群纳管、基础应用分发及金丝雀发布等高级策略性能测试显示，相比传

2025-11-28 12:18:46 1093

原创【探索实战】手把手教你三十分钟搭建Kurator分布式云原生平台

本文详细介绍了Kurator分布式云原生平台的架构设计与实战部署。Kurator通过"一栈式"整合Karmada、Istio等主流云原生技术，解决了多云管理的复杂度问题。文章首先解析了Kurator的核心设计理念，包括舰队管理、统一调度等创新特性；然后提供了30分钟快速部署的完整指南，涵盖环境准备、集群纳管等关键步骤；最后展示了企业级应用场景，如统一应用分发、金丝雀发布等。测试数据显示，Kurator可显著提升运维效率（部署速度提升89%）和资源利用率（提高15-20%）。针对国内网络环

2025-11-28 12:06:23 992

原创 Triton - Ascend算子调试技巧：从入门到精通

本文系统介绍了Triton在昇腾AI处理器上的算子调试全流程。首先阐述了Triton调试的重要性及其复杂性来源，然后详细解析了调试工具链，包括Triton内置调试算子、AscendDebugger硬件级调试和CPU/NPU孪生调试策略。文章深入讲解了性能分析工具msProf的使用方法，以及如何识别和分类计算瓶颈、内存瓶颈等性能问题。针对常见调试场景，提供了内存对齐、Atomic操作等问题的具体解决方案，并通过矩阵乘法案例展示了企业级调试实践。最后展望了AI辅助调试等未来发展趋势，并总结了核心调试方法论和实战

2025-11-27 13:27:22 910

原创 Qwen2.5、Llama 3.1轻量模型本地化部署指南：从环境配置到企业级实战

摘要：本文系统介绍了Qwen2.5、Llama3.1等轻量模型的本地化部署全流程，重点分析了Ollama、vLLM和Transformers三种核心方案的技术原理与实战应用。通过量化技术（8位/4位）显著降低硬件需求，在消费级设备上实现高效推理（RTX3060可达120+tokens/s）。企业级应用部分涵盖Web界面集成、SpringBoot对接及性能优化策略，提供完整的Docker和代码示例。实测数据显示，优化后的本地部署方案在保证90%以上模型性能的同时，推理延迟可控制在500ms内，为金融、医疗等敏

2025-11-26 23:55:52 1494

原创突破算力壁垒：Triton-on-Ascend异构计算新范式深度解析与实战

《Triton-on-Ascend技术解析与应用实践》摘要本文系统阐述了Triton-on-Ascend如何通过高层抽象编程模型突破AI算力瓶颈。针对昇腾AI处理器特性，深入剖析了分层编译架构与SPMD并行编程范式的实现机制，提供从环境部署到算子优化的全流程实战指南。重点探讨了网格配置、内存访问优化等核心技巧，并通过性能对比数据验证其在开发效率与计算性能间的平衡优势。文章还分享了企业级自动调优策略和故障排查体系，为AI加速计算提供了一套经过生产验证的解决方案。最后展望了该技术在生态完善与硬件协同等方面的发

2025-11-26 12:47:16 685

原创昇腾Atlas加速卡与Ascend C：从硬件基石到编程哲学的深度解析与实战

本文深入解析华为昇腾Atlas加速卡的达芬奇架构及AscendC编程模型。通过对比CUDA，揭示AscendC"显式并行、软硬协同"的设计哲学，重点剖析Cube/Vector计算单元协同机制及多级存储体系。结合EmbeddingDenseGrad算子开发案例，详解原子操作解决数据竞争的关键技术，并分享InternVL大模型适配中的算子融合等优化经验。文章指出，尽管AscendC学习曲线陡峭，但其对计算流程的精准控制为AI计算提供了更高能效比，是异构计算领域值得关注的新方向。

2025-11-25 20:52:24 1527

原创昇腾CANN训练营全解析：为何说Ascend C是投资AI未来的关键？

本文深度解析华为昇腾AI处理器及AscendC编程语言的战略价值。文章从异构计算格局切入，剖析CANN软件栈的架构设计，重点阐述AscendC面向AI计算的专用性设计理念，包括核函数范式、多级内存管理等核心特性。通过Sigmoid算子开发实例，详细展示AscendC的高效编码风格和开发流程，并分享性能优化技巧和故障排查经验。文章指出，掌握AscendC不仅是一项技能，更是对AI未来算力的关键投资，在当前AI算力多元化的背景下，AscendC开发者将成为稀缺人才资源。最后提供昇腾训练营等官方学习资源，助力开发

2025-11-25 20:36:24 1056

jodconverter-2.2.2.zip

空空如也