- 博客(68)
- 收藏
- 关注
原创 云端算力芯片(GPU/NPU/IPU)全周期落地交付标准文档
本文档旨在规范云端算力卡从实验室环境到最终生产环境落地的全流程管理。核心目标是通过业务驱动、分段验证、风险前置的逻辑,确保国产算力方案在复杂业务场景下的确定性交付。业务目标定义 → 环境可用 → 性能达标 → 稳定性达标 → 可运维交付
2026-05-06 10:17:49
127
原创 国产替代实战系列(六):扎根大厂——从小批量试运行到长期主义的胜利
当我们的卡终于通过了招标,挤进了机房的几十个节点时,真正的考验才刚刚开始。大厂不缺“入围”的供应商,缺的是能陪他们走完硬件 3-5 年生命周期的**长跑者**。
2026-05-06 10:14:37
52
原创 国产替代实战系列(五):破局大厂——从“KPI 共谋”到“全线突围”
在大厂,引入一款国产芯片就像往一个精密的齿轮组里塞入一个新零件。如果你不给每个齿轮都抹上“润滑油”,整个项目就会因为阻力过大而崩盘。作为 FAE,我们需要识别、搞定、甚至“赋能”以下五类核心干系人,并明确我们自己在其中的角色定位。
2026-05-06 10:12:44
188
原创 国产替代实战系列(四):交付节奏——这段时间大概会做什么?
在招标入围的背景下,客户留给 FAE 的时间非常紧迫。这一个月不仅仅是技术测试,更是一场**预期管理**。你需要在 30 天内完成从“怀疑”到“甚至想给你打高分”的逆转。
2026-05-06 10:11:12
208
原创 国产替代实战系列(四):交付节奏——这段时间大概会做什么?
在招标入围的背景下,客户留给 FAE 的时间非常紧迫。这一个月不仅仅是技术测试,更是一场。你需要在 30 天内完成从“怀疑”到“甚至想给你打高分”的逆转。
2026-04-27 17:49:06
297
原创 终章:回归常态——在平庸的世界里,靠“赛道”与“态度”突围
这是一篇将所有博弈场景拆解并重组后的“最终通透版”。它剥离了所有的光环,直指向我们普通人生活的真实逻辑。
2026-04-25 08:00:00
619
原创 智能音箱开发实战(五):生态与商业化——从“卖产品”到“卖全屋服务”
这个就要看公司策略了,入口已经做到千家万户,如何变现就要看领导层或者战略家们怎么想的了。这里只做一个引出
2026-04-25 08:00:00
348
原创 (一)3070Ti 笔记本变身 AI 服务器:vLLM 推理服务搭建选型与实战复盘
这个介绍了我为什么要搭建vllm服务,以及搭建服务的实现背景是怎么样的。
2026-04-25 07:00:00
379
原创 智能音箱开发实战(四):云端与 OTA——构建自主可控的“数字大脑”
一个智能产品,如何进行维护。当然如果只是卖消费类电子不要维护,就可以不要看这个。但有心成为一个互联网公司玩生态的,可以看看
2026-04-24 08:00:00
322
原创 (二)手把手教程:3070Ti 笔记本 vLLM 推理服务从零搭建全流程
记录一下部署的过程,别看文章就那么短,其实中间试过很多次的。。这剩下的是最优结果
2026-04-23 19:34:30
375
原创 攻方视角:《决策的艺术:从“条件对标”到“气味相投”的终极一选》
**最终决策**。当两个候选人能力旗鼓相当,或者两份投融资协议各有千秋时,你该如何拍板?
2026-04-23 08:00:00
156
原创 智能音箱开发实战(三):DVT 阶段——模具、可靠性与声学“金耳”调教
DVT阶段,其实是要密集测试了,但现在很多头部平台都很稳定接入测试一下就差不多了
2026-04-23 08:00:00
378
原创 攻方视角:《精算师思维:如何计算对方是你的“资产”还是“负债”?》
正如专业的精算师不会因为一场火灾就否定整个保险业务,一个成熟的筛选者也不会因为对方的一个缺点就全盘否定。你需要建立一套**风险与回报模型**。
2026-04-21 10:00:00
282
原创 攻方视角:《降噪识别:如何撕开“表演性”包装,看透对方真实底色?》
作为攻方,你面临的最大挑战是“信息不对称”。对方经过了精心的包装,带着完美的简历、华丽的PPT和人设化的朋友圈坐到你对面。你的任务是撕开这些“表演性”的外壳,识别出真实的底色。
2026-04-20 10:00:00
193
原创 守方视角:《反向提问:如何通过“提问”夺回主导权并看清对方底牌》
在高价值的博弈中,如果你只是一味地回答问题,你永远只是一个“被挑选的商品”。只有当你开始提出高质量的问题时,你才真正成为了一个“合伙人”。
2026-04-19 10:00:00
338
原创 守方视角:《压力测试:如何在高压质疑下完成“估值修复”》
如果说开场白是“展示最好的自己”,那么**压力测试**就是对方在试图寻找你“最差的一面”。在面试官的追问、投资人的质疑、相亲对象的试探面前,如何应对,直接决定了你是一个**易碎的精美包装**,还是一个**耐用的高质量资产**。
2026-04-18 07:00:00
304
原创 FAE 视角:如何用技术文档支撑客户快速落地
有的时候会想,直接写文章就可以让客户懂得的东西。为什么要多费口舌来给客户讲那么多。后来发现其实文章的完善是不断和客户交流的过程,要清楚客户需要的是什么才能写出好的技术类的文章
2026-03-18 15:07:47
384
原创 AI 芯片推理适配踩坑记:从 GPU 到国产算力的迁移思路
从 GPU 到国产算力的 AI 推理迁移,核心并非“硬件替换”,而是“生态适配+细节优化”——GPU 的优势在于成熟的生态与工具链,而国产芯片的优势在于安全自主、场景化优化潜力,迁移过程中无需追求“完全等效”,而是要结合国产芯片的硬件特性,针对性优化 API、内存、通信逻辑,在保障业务指标的前提下,充分发挥国产芯片的优势。结合多个项目的踩坑经验,总结两点核心认知:一是“迁移前预判,迁移中细致,迁移后验证”,标准化推进迁移流程,可大幅降低踩坑概率;
2026-03-17 22:30:00
488
原创 Benchmark 体系搭建:如何给客户一份可信的性能报告
可信性能报告的核心,始于 “测什么” 的精准定义。很多科技工作者在开展 Benchmark 测试时,容易陷入 “盲目测指标” 的误区,导致测试数据与客户实际需求脱节,报告失去参考意义。搭建科学的 Benchmark 体系,首先要明确贴合客户场景的测试维度,拒绝 “一刀切” 的测试方案,让每一项测试都有明确的价值导向。简要概述测试目的、测试范围、核心结论,让客户快速了解测试成果与产品性能整体表现,无需阅读全文即可掌握核心信息。
2026-03-17 17:40:50
361
原创 多卡推理性能下降如何定位:通信拓扑与 Profiling 实战
多卡推理性能下降的定位,本质是“打破‘多卡即提速’的固有认知”,回归“计算与通信的平衡”——多卡并行的核心价值是通过分布式计算提升效率,但通信开销的增加会抵消部分计算收益,当通信开销超过计算收益时,就会出现性能下降。对于科技工作者而言,掌握系统化的排查思路是前提:先通过基础环境与拓扑校验排除低级错误,再通过 Profiling 工具采集数据锁定瓶颈范围,最后结合通信拓扑特性与并行策略,精准定位根因并验证;
2026-03-17 17:19:23
378
原创 深度解构 LLM 推理优化:从 KV Cache 冗余到 PagedAttention 内存分页映射
在 LLM 生产级部署中,推理性能的瓶颈已从算力受限(Compute-bound)转向**显存带宽与容量受限(Memory-bound)**。对于 Llama-3、Mixtral 等长上下文模型,KV Cache 的管理效率直接决定了系统的吞吐量(Throughput)与延迟(Latency)。本文将从底层原理出发,剖析 KV Cache 的物理开销与 PagedAttention 的工程实现。
2026-03-07 22:25:55
432
原创 Docker + K8s 部署大模型推理服务:资源划分与多实例调度
本文系统介绍了大语言模型推理服务的容器化部署方案。针对模型体积大、计算密集的特点,提出基于Docker和Kubernetes的生产级部署方法,包括:1)使用NVIDIA官方镜像构建Dockerfile;2)配置K8s Deployment实现多实例管理;3)优化GPU资源分配策略。重点阐述了vLLM推理引擎的容器化封装、健康检查探针设置、GPU调度规则等核心环节,并给出7B/14B模型的具体资源配置建议。文章还强调了镜像瘦身、存储优化等生产环境注意事项,为AI推理服务的高效部署提供完整解决方案。
2026-02-27 00:09:47
411
原创 大模型推理性能 Benchmark 实践:vLLM vs TensorRT-LLM (基于 Llama 3.1 8B)
VLLM 和 TensorRT-LLM对比,两个框架各有优势,怎么对比可以看看。
2026-02-26 23:28:54
591
原创 别把 Cursor 只当代码补全工具!这样做,让 AI 真正读懂你的项目架构
Cursor已从代码补全工具进化为可配置的智能开发引擎。要让其成为高效项目助理,需做好两件事:1)将项目架构、设计等关键知识整理成文档;2)通过.cursor/rules/目录组织这些文档,使其能被正确读取。典型配置包括项目概述、架构设计、编码规范等规则文件,以及docs/目录下的需求文档。同时需配置.cursorignore过滤无关文件。这种结构化配置使Cursor能生成符合项目规范的代码,实现从Demo到商业软件的转变,形成"可被AI驱动的开发体系"。
2026-01-19 18:17:40
831
原创 新员工上手时间缩短50%的实践:AIDF如何加速知识传承
AIDF智能知识管理解决方案通过软硬件一体化设计,5分钟快速部署实现企业知识高效管理。采用私有化部署确保数据安全,支持全格式文档解析和自然语言检索,将文件转化为结构化知识资产。实践显示,该系统能减少98%文档查找时间,提升3倍知识复用率,使新员工培训周期从2周缩短至1周,有效解决企业知识传承难题。
2026-01-08 17:13:04
1076
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅