自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 基于C语言 标准的内存操作:从指针强转陷阱到联合体契约

在底层编程中,代码的正确性永远高于看起来的“技巧性”。当你需要把 16 位数据转为 32 位时,直接使用进行值转换是最简单的(且自动处理高位补零)。当你需要查看浮点数的二进制位,或者解析复杂的协议包时,请使用 Union或 memcpy。别再迷信“指针强转”的黑魔法了。使用标准允许的方式,让编译器成为你的盟友,而不是敌人。

2025-12-13 14:27:46 466

原创 GIT使用小白(进阶二:冲突解决)

然后在文件中点“Accept Incoming / Accept Current / Both”。(如果 Git 自动生成 merge commit message,也可以直接用)这一步很重要,因为冲突解决错误比冲突本身更可怕。只要按下面的步骤走,一次就能干干净净解决。确保你 add 后的内容真的正确。

2025-12-12 12:10:28 313

原创 GIT使用小白(进阶一)

你所有开发全在 green_dev_luyi 上 →用 rebase 同步 yellow →push 自己分支 →GitLab 上发 MR → 合到 yellow。流程轻松稳定,历史干净无 merge。

2025-12-12 12:09:00 221

原创 flash attention ——深入浅出(三) Optimization of Softmax Reciprocal

针对 LLM/Transformer 推理算子(如 FlashAttention)中 Softmax 分母求倒数 (1/x) 的高性能实现。在保证精度的前提下,使用多项式拟合替代高延迟的除法指令。

2025-12-09 10:24:39 1125

原创 FlashAttention-4算法——深入浅出(一)

在 LLM(大语言模型)的训练和推理中,Attention 机制的ON2O(N^2)ON2复杂度一直是悬在所有 AI 工程师头顶的达摩克利斯之剑。从 FlashAttention V1 到 V3,我们见证了算子优化如何从“显存读写瓶颈”一步步走向“计算流水线瓶颈”。而随着 NVIDIA Blackwell 架构(如 B200 芯片)的问世,硬件的算力再次爆发(FP4 精度下高达 20 PFLOPS)。

2025-12-05 20:05:24 974

原创 FlashAttention-4算法——深入浅出(二)

这种算法体现了计算机科学中经典的“近似换速度” (Approximation for Speed)的哲学。优势极速:仅需 1 Mul + 1 Add + 1 Cast,比泰勒展开快一个数量级。硬件友好:完全利用了 SIMD/Vector 单元的基础指令,无需专用超越函数单元。局限精度损失:由于忽略了log⁡21mlog2​1m的高阶项,结果存在一定误差(但在深度学习推理的容错范围内通常可接受)。范围限制:对于极大或极小的xxx,容易发生溢出,需要额外的 Clamp 处理。

2025-12-02 21:39:06 622

原创 RISC-V指令——深入浅出(二)

数据欺骗:利用 Reinterpret 处理异构数据类型,避免昂贵的转换指令。火力全开:利用LMUL=4或LMUL=8增大单条指令吞吐量。零开销封装:利用封装底层指令,保持代码整洁且不损失性能。

2025-11-29 10:27:40 847

原创 RISC-V指令——深入浅出(一)

insn利用RVV (vsetvlivle32的吞吐能力,不仅用于计算,更用于批量加载控制信息。利用 .insn r自定义指令机制,打通 CPU 通用寄存器与专用硬件逻辑的隔阂。利用Mask(掩码)和NOC逻辑,实现多核之间复杂的拓扑通信。这种“向量寄存器传参 + 自定义指令触发 + 硬件异步执行”的模式,正是现代高性能 RISC-V 处理器区别于传统控制器的核心竞争力所在。

2025-11-24 19:31:51 986

原创 优化 Flash Attention:基于RISC-V的NPU 多核 Online-Softmax

Flash Attention是现代大型语言模型(LLM)的核心优化之一,它通过分块计算(Tiling)显著降低了内存I/O。核间通信。本文详细探讨了在拆分Attention头后,为避免高昂的带宽开销而必须采用的算法。我们将分析一种常见的错误实现,并提供一个正确的、仅需四次通信的五阶段实现方案,最后讨论针对RISC-V等架构的硬件优化策略。

2025-11-02 23:47:36 1018

原创 分布式CIM/NPU上的高效注意力计算

虽然使用了乒乓缓冲区,增加了一倍的输出内存,但总体内存占用仍远低于标准实现,且换来了更高的并行度和吞吐量。

2025-10-12 20:04:16 769

原创 yoloe的跟踪模块

yoloe-11s-seg-pf.pt 与 yoloe-11s-seg.pt 的区别在于,pf不需要文字图片提示。

2025-06-11 16:59:09 333

原创 yolov11训练

1、运行代码:train_model.py该代码可以应对数据不平衡的问题进行训练,同时避免过拟合的trick。

2025-06-06 14:22:57 114

原创 【onnx计算量的计算】

`import onnx_toolmodel_path = ‘/home/ly/data/work/yoloe001/ultralytics/open_weights/best.onnx’ #本地模型onnx_tool.model_profile(model_path)``@TOC你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。我们对Markdown编辑器进行了一些功能拓展与语法

2025-06-04 10:48:11 770

yolo11 pose的权重

yolo11 pose的权重

2025-06-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除