自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 资源 (1)
  • 收藏
  • 关注

原创 [musa]动态图与静态图的区别以及算子逻辑

fallback = 首选实现不可用/不命中时,自动切到次优但可用实现,保证正确性。它不是“程序报错后瞎跳”,而是代码里主动写好的分支策略。

2026-04-09 10:37:57 300

原创 【DEBUG】推理优化场景下的 OOM 与长跑稳定性问题复盘

更像是“第一个认真检查 shape 值是否合法的人”,所以 shape 一旦脏了,它们就最先跳出来报警。如果已经判断是 memory contract 问题,先用保守修法把正确性稳定住是值得的。很可能只是最先发现 shape 脏了,而不是最先把 shape 搞脏的人。而一旦把这层语义理顺,很多“看起来很玄学”的问题,反而就会一下子变得很具体。它们往往数据很小,而且很多下游算子本来就要求它们必须是 host 可见的。也就是说,debug 更像“帮你把隐藏 bug 提前炸出来”。

2026-03-31 17:39:48 393

原创 Codex 在 Linux 工作机上的登录、迁移与避坑指南

这类错误更像是网页登录回调链路出问题,不是账号密码本身错了。如果工作机网络环境、浏览器回调、证书、代理或插件宿主环境有问题,就可能出现这种现象。官方支持的登录方式并不只有浏览器登录,还包括API key和。工作机网页登录坏掉从另一台已登录机器复制auth.json工作机成功恢复使用。

2026-03-24 17:39:00 478

原创 算子融合:以GELU 为例,融合改造与验证办法

本文对TensorFlow MUSA插件中的GELU路径进行了工程优化,主要改进包括:1)用muDNN替换手写GELU kernel,减少维护成本;2)为GELU融合添加运行时开关,便于A/B测试;3)修复大图中部分GELU未融合的问题;4)新增基于整网真实shape的GELU基准测试脚本。测试结果表明,GELU融合在整网真实shape下可获得36.6%的性能提升,但在极小shape[100,64]上出现性能退化。当前工程已实现正确性目标,但小shape优化仍需后续改进。整体流程包括图优化、模式匹配、融合替

2026-03-18 11:11:46 374

原创 git 基础命令和使用技巧

在 rebase upstream/main 时冲突很多,且误用了 git rebase continue。解决:确认分叉后用 git push --force-with-lease origin dev。解决:git branch --set-upstream-to=origin/dev dev。解决:中止 rebase,改用 merge upstream/main,一次合入上游更新。解决:配置 safe.directory + 修复权限后继续操作。现象:提示 rebase-merge、冲突未解决。

2026-03-09 11:26:57 181

原创 CUDA学习记录 -----一步步优化 Reduction Kernel:从 Bank Conflict 到 Warp Shuffle

Parallel Reduction(并行归约)是 CUDA 编程中的“Hello World”级别的算法,它的目标很简单:将一个数组中的所有元素求和。但它同时也是展示 GPU 硬件特性的绝佳教科书。本文将通过 7 个版本的迭代(V1-V7),记录如何将一个 Kernel 的耗时从2.3ms优化至0.6ms甚至更低,并深入探讨以及指令的奥秘。V1 -> V2: 修改索引,消除。V2 -> V3: 增加单线程负载,利用ILP隐藏延迟。V3 -> V4: 引入volatile和__syncwarp,消除。

2026-01-27 10:32:12 1004

原创 CUDA 学习记录--------在 WSL2 环境下搭建 NVIDIA Nsight Compute (ncu) 避坑指南

在高性能计算(HPC)和 AI Infra 领域,如果说 Nsight Systems (nsys) 是宏观的“战术地图”,那么。WSL 的 GPU 实际上是 Windows 显卡的映射,Windows 驱动默认锁住了底层性能计数器的访问权限。里的指令级分析,所有的性能瓶颈(Memory Bound 还是 Compute Bound)都将无所遁形。等待程序运行结束(因为收集指标多,程序会被重播约 30-50 次,耗时比正常运行长是正常的)。安装 CLI (命令行版) 工具,负责在运行时抓取数据。

2026-01-24 11:08:38 1093 1

原创 CUDA学习记录 ----- 矩阵转置

为了快:Global Memory 的读写永远都要用做连续索引。为了准:转置的操作发生从 Shared Memory取数的那一刻(交换 x, y 索引)。记忆口诀进 Shared Memory:s_mem[y][x](正向复制)出 Shared Memory:s_mem[x][y](转置读取)搞懂了这一点,CUDA 的矩阵优化就不再神秘了。

2026-01-24 10:55:32 779

原创 关于动态规划

这样,这道题也就解出来了。

2024-04-15 21:00:29 919 1

原创 链表的使用

为什么要用中间变量来遍历链表呢?可以用来找出两个链表的交点。

2024-04-12 08:46:11 305 1

原创 c++ 中 map 的用法

通过键自动排序,并提供快速检索能力。它主要用于快速查找、插入和删除键值对。是一个关联容器,它存储键值对,其中每个键唯一,并且每个键映射到一个值。下面讲讲 .find() 和.count()函数。遍历输出map中的值,也有两种方法。这里我们先介绍迭代器的定义。然后适用于迭代器的遍历。也有一种更方便的方法。

2024-04-08 20:39:32 6050 1

原创 Python 中的字符串切片 (应用:判断回文数)

我在学习Python中的一些思路

2022-07-18 23:06:46 2030 1

我的作品-2023-3-22

我的作品-2023-3-22

2024-03-22

电子售货机系统(QuartusII)

电子售货机系统(QuartusII)

2023-11-30

基于简单MIPS指令的CPU模块设计,组装和仿真(Vivado)

基于简单MIPS指令的CPU模块设计,组装和仿真(Vivado)

2023-11-30

拥有三个端口的教务管理系统

拥有三个端口的教务管理系统

2022-06-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除