XFDG01-CSDN博客

原创 [musa]动态图与静态图的区别以及算子逻辑

fallback = 首选实现不可用/不命中时，自动切到次优但可用实现，保证正确性。它不是“程序报错后瞎跳”，而是代码里主动写好的分支策略。

2026-04-09 10:37:57 300

原创【DEBUG】推理优化场景下的 OOM 与长跑稳定性问题复盘

更像是“第一个认真检查 shape 值是否合法的人”，所以 shape 一旦脏了，它们就最先跳出来报警。如果已经判断是 memory contract 问题，先用保守修法把正确性稳定住是值得的。很可能只是最先发现 shape 脏了，而不是最先把 shape 搞脏的人。而一旦把这层语义理顺，很多“看起来很玄学”的问题，反而就会一下子变得很具体。它们往往数据很小，而且很多下游算子本来就要求它们必须是 host 可见的。也就是说，debug 更像“帮你把隐藏 bug 提前炸出来”。

2026-03-31 17:39:48 393

原创 Codex 在 Linux 工作机上的登录、迁移与避坑指南

这类错误更像是网页登录回调链路出问题，不是账号密码本身错了。如果工作机网络环境、浏览器回调、证书、代理或插件宿主环境有问题，就可能出现这种现象。官方支持的登录方式并不只有浏览器登录，还包括API key和。工作机网页登录坏掉从另一台已登录机器复制auth.json工作机成功恢复使用。

2026-03-24 17:39:00 478

原创算子融合：以GELU 为例，融合改造与验证办法

本文对TensorFlow MUSA插件中的GELU路径进行了工程优化，主要改进包括：1）用muDNN替换手写GELU kernel，减少维护成本；2）为GELU融合添加运行时开关，便于A/B测试；3）修复大图中部分GELU未融合的问题；4）新增基于整网真实shape的GELU基准测试脚本。测试结果表明，GELU融合在整网真实shape下可获得36.6%的性能提升，但在极小shape[100,64]上出现性能退化。当前工程已实现正确性目标，但小shape优化仍需后续改进。整体流程包括图优化、模式匹配、融合替

2026-03-18 11:11:46 374

原创 git 基础命令和使用技巧

在 rebase upstream/main 时冲突很多，且误用了 git rebase continue。解决：确认分叉后用 git push --force-with-lease origin dev。解决：git branch --set-upstream-to=origin/dev dev。解决：中止 rebase，改用 merge upstream/main，一次合入上游更新。解决：配置 safe.directory + 修复权限后继续操作。现象：提示 rebase-merge、冲突未解决。

2026-03-09 11:26:57 181

原创 CUDA学习记录 -----一步步优化 Reduction Kernel：从 Bank Conflict 到 Warp Shuffle

Parallel Reduction（并行归约）是 CUDA 编程中的“Hello World”级别的算法，它的目标很简单：将一个数组中的所有元素求和。但它同时也是展示 GPU 硬件特性的绝佳教科书。本文将通过 7 个版本的迭代（V1-V7），记录如何将一个 Kernel 的耗时从2.3ms优化至0.6ms甚至更低，并深入探讨以及指令的奥秘。V1 -> V2: 修改索引，消除。V2 -> V3: 增加单线程负载，利用ILP隐藏延迟。V3 -> V4: 引入volatile和__syncwarp，消除。

2026-01-27 10:32:12 1004

原创 CUDA 学习记录--------在 WSL2 环境下搭建 NVIDIA Nsight Compute (ncu) 避坑指南

在高性能计算（HPC）和 AI Infra 领域，如果说 Nsight Systems (nsys) 是宏观的“战术地图”，那么。WSL 的 GPU 实际上是 Windows 显卡的映射，Windows 驱动默认锁住了底层性能计数器的访问权限。里的指令级分析，所有的性能瓶颈（Memory Bound 还是 Compute Bound）都将无所遁形。等待程序运行结束（因为收集指标多，程序会被重播约 30-50 次，耗时比正常运行长是正常的）。安装 CLI (命令行版) 工具，负责在运行时抓取数据。

2026-01-24 11:08:38 1093 1

原创 CUDA学习记录 ----- 矩阵转置

为了快：Global Memory 的读写永远都要用做连续索引。为了准：转置的操作发生从 Shared Memory取数的那一刻（交换 x, y 索引）。记忆口诀进 Shared Memory：s_mem[y][x](正向复制)出 Shared Memory：s_mem[x][y](转置读取)搞懂了这一点，CUDA 的矩阵优化就不再神秘了。

2026-01-24 10:55:32 779

原创关于动态规划

这样，这道题也就解出来了。

2024-04-15 21:00:29 919 1

原创链表的使用

为什么要用中间变量来遍历链表呢？可以用来找出两个链表的交点。

2024-04-12 08:46:11 305 1

原创 c++ 中 map 的用法

通过键自动排序，并提供快速检索能力。它主要用于快速查找、插入和删除键值对。是一个关联容器，它存储键值对，其中每个键唯一，并且每个键映射到一个值。下面讲讲 .find() 和.count()函数。遍历输出map中的值，也有两种方法。这里我们先介绍迭代器的定义。然后适用于迭代器的遍历。也有一种更方便的方法。

2024-04-08 20:39:32 6050 1

原创 Python 中的字符串切片（应用：判断回文数）

我在学习Python中的一些思路

2022-07-18 23:06:46 2030 1

我的作品-2023-3-22

2024-03-22

电子售货机系统（QuartusII）

2023-11-30

基于简单MIPS指令的CPU模块设计，组装和仿真（Vivado）

2023-11-30

拥有三个端口的教务管理系统

2022-06-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人