A~MasterYi-CSDN博客

原创基于C语言标准的内存操作：从指针强转陷阱到联合体契约

在底层编程中，代码的正确性永远高于看起来的“技巧性”。当你需要把 16 位数据转为 32 位时，直接使用进行值转换是最简单的（且自动处理高位补零）。当你需要查看浮点数的二进制位，或者解析复杂的协议包时，请使用 Union或 memcpy。别再迷信“指针强转”的黑魔法了。使用标准允许的方式，让编译器成为你的盟友，而不是敌人。

2025-12-13 14:27:46 466

原创 GIT使用小白（进阶二：冲突解决）

然后在文件中点“Accept Incoming / Accept Current / Both”。（如果 Git 自动生成 merge commit message，也可以直接用）这一步很重要，因为冲突解决错误比冲突本身更可怕。只要按下面的步骤走，一次就能干干净净解决。确保你 add 后的内容真的正确。

2025-12-12 12:10:28 313

原创 GIT使用小白（进阶一）

你所有开发全在 green_dev_luyi 上 →用 rebase 同步 yellow →push 自己分支 →GitLab 上发 MR → 合到 yellow。流程轻松稳定，历史干净无 merge。

2025-12-12 12:09:00 221

原创 flash attention ——深入浅出（三） Optimization of Softmax Reciprocal

针对 LLM/Transformer 推理算子（如 FlashAttention）中 Softmax 分母求倒数 (1/x) 的高性能实现。在保证精度的前提下，使用多项式拟合替代高延迟的除法指令。

2025-12-09 10:24:39 1125

原创 FlashAttention-4算法——深入浅出（一）

在 LLM（大语言模型）的训练和推理中，Attention 机制的ON2O(N^2)ON2复杂度一直是悬在所有 AI 工程师头顶的达摩克利斯之剑。从 FlashAttention V1 到 V3，我们见证了算子优化如何从“显存读写瓶颈”一步步走向“计算流水线瓶颈”。而随着 NVIDIA Blackwell 架构（如 B200 芯片）的问世，硬件的算力再次爆发（FP4 精度下高达 20 PFLOPS）。

2025-12-05 20:05:24 974

原创 FlashAttention-4算法——深入浅出（二）

这种算法体现了计算机科学中经典的“近似换速度” (Approximation for Speed)的哲学。优势极速：仅需 1 Mul + 1 Add + 1 Cast，比泰勒展开快一个数量级。硬件友好：完全利用了 SIMD/Vector 单元的基础指令，无需专用超越函数单元。局限精度损失：由于忽略了log⁡21mlog21m的高阶项，结果存在一定误差（但在深度学习推理的容错范围内通常可接受）。范围限制：对于极大或极小的xxx，容易发生溢出，需要额外的 Clamp 处理。

2025-12-02 21:39:06 622

原创 RISC-V指令——深入浅出（二）

数据欺骗：利用 Reinterpret 处理异构数据类型，避免昂贵的转换指令。火力全开：利用LMUL=4或LMUL=8增大单条指令吞吐量。零开销封装：利用封装底层指令，保持代码整洁且不损失性能。

2025-11-29 10:27:40 847

原创 RISC-V指令——深入浅出（一）

insn利用RVV (vsetvlivle32的吞吐能力，不仅用于计算，更用于批量加载控制信息。利用 .insn r自定义指令机制，打通 CPU 通用寄存器与专用硬件逻辑的隔阂。利用Mask（掩码）和NOC逻辑，实现多核之间复杂的拓扑通信。这种“向量寄存器传参 + 自定义指令触发 + 硬件异步执行”的模式，正是现代高性能 RISC-V 处理器区别于传统控制器的核心竞争力所在。

2025-11-24 19:31:51 986

原创优化 Flash Attention：基于RISC-V的NPU 多核 Online-Softmax

Flash Attention是现代大型语言模型（LLM）的核心优化之一，它通过分块计算（Tiling）显著降低了内存I/O。核间通信。本文详细探讨了在拆分Attention头后，为避免高昂的带宽开销而必须采用的算法。我们将分析一种常见的错误实现，并提供一个正确的、仅需四次通信的五阶段实现方案，最后讨论针对RISC-V等架构的硬件优化策略。

2025-11-02 23:47:36 1018

原创分布式CIM/NPU上的高效注意力计算

虽然使用了乒乓缓冲区，增加了一倍的输出内存，但总体内存占用仍远低于标准实现，且换来了更高的并行度和吞吐量。

2025-10-12 20:04:16 769

原创 yoloe的跟踪模块

yoloe-11s-seg-pf.pt 与 yoloe-11s-seg.pt 的区别在于，pf不需要文字图片提示。

2025-06-11 16:59:09 333

原创 yolov11训练

1、运行代码：train_model.py该代码可以应对数据不平衡的问题进行训练，同时避免过拟合的trick。

2025-06-06 14:22:57 114

原创【onnx计算量的计算】

`import onnx_toolmodel_path = ‘/home/ly/data/work/yoloe001/ultralytics/open_weights/best.onnx’ #本地模型onnx_tool.model_profile(model_path)``@TOC你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。我们对Markdown编辑器进行了一些功能拓展与语法

2025-06-04 10:48:11 770

weixin_46164701的博客