来源: AINLPer 微信公众号(每日论文干货分享!!)
编辑: ShuYini
校稿: ShuYini
时间: 2025-3-3
引言
DeepSeek开源周,向开发者社区分享他们在人工智能领域的最新技术成果,他们共计发布了五个重要代码库,几乎涉及了AI基础设施栈的各个关键节点,从底层的计算优化(FlashMLA、DeepGEMM)到中间的通信层(DeepEP),再到存储系统(3FS)和整体并行策略(DualPipe、EPLB),最终集成为高效的推理服务。太牛了!让我们一起欣赏一下吧。
- FlashMLA
- DeepEP
- DeepGEMM
- 并行策略优化
- 3FS文件系统
- DS-V3/R1推理系统概述
Day 1: FlashMLA
首日,DeepSeek发布了FlashMLA,这是一款为Hopper GPU优化的高效MLA解码内核。FlashMLA针对可变长度序列的优化非常关键,这解决了大语言模型解码过程中的一个痛点。
传统解码器在处理不同长度输入时效率往往大打折扣,而FlashMLA的分页KV缓存设计平衡了内存使用和计算效率,这对于降低大模型推理成本具有显著价值。当前该项技术已在生产环境中应用。
FlashMLA具备以下特点:
- 支持BF16精度
- 分页KV缓存(块大小64)
- 在H800上实现3000 GB/s内存绑定和580 TFLOPS计算绑定性能
FlashMLA: https://github.com/deepseek-ai/FlashMLA
Day2: DeepEP
第二天,团队推出了DeepEP,这是首个开源EP通信库,专为MoE(混合专家)模型训练和推理设计。DeepEP的出现意义重大,它解决了MoE模型中专家并行通信的核心挑战。随着MoE架构在大规模模型中的普及,高效的EP通信成为性能瓶颈。
DeepEP针对不同场景进行优化,其中:针对训练和推理预填充任务,提供高吞吐量,支持非对称域带宽转发(如从NVLink域到RDMA域)和SM资源控制;针对延迟敏感的推理解码场景,采用纯RDMA技术最小化延迟。
此外,DeepEP创新性地引入了基于钩子(hook-based)的通信-计算重叠方法,无需占用SM资源,进一步提升了系统效率,这对于构建更大规模、更经济高效的AI模型至关重要。
简单总结,DeepEP主要特性包括:
- 高效优化的全对全通信
- 同时支持节点内和节点间通信,兼容NVLink和RDMA
- 为训练和推理预填充提供高吞吐量内核
- 为推理解码提供低延迟内核
- 原生支持FP8调度
- 灵活的GPU资源控制,实现计算-通信重叠
DeepEP:https://github.com/deepseek-ai/DeepEP
Day3: DeepGEMM
第三天发布的DeepGEMM是一个专为FP8精度通用矩阵乘法(GEMMs)设计的高效库,其核心特点是实现了DeepSeek-V3中提出的精细粒度缩放方法。该库不仅支持常规矩阵乘法,还支持混合专家系统(MoE)的分组矩阵乘法。
DeepGEMM完全使用CUDA编写,通过轻量级的即时编译(JIT)模块实现运行时内核编译,避免了安装过程中的编译需求。目前,DeepGEMM专为NVIDIA Hopper张量核心优化,并采用CUDA核心二级累加技术解决FP8张量核心精度问题核心内核函数仅约300行代码。这种简洁设计使其成为学习Hopper FP8矩阵乘法和优化技术的理想资源。值得注意的是,尽管DeepGEMM设计轻量,其性能在各种矩阵形状下仍能达到或超越专家调优库的水平,展现了平衡简洁设计与高性能的技术实力。
简单来说,DeepGEMM是一个FP8 GEMM库,支持密集和MoE GEMM,为V3/R1训练和推理提供动力:
- 在Hopper GPU上实现高达1350+ FP8 TFLOPS的性能
- 无重度依赖,代码简洁如教程
- 完全即时编译
- 核心逻辑仅约300行代码,却在大多数矩阵尺寸上优于专家调优的内核
- 支持密集布局和两种MoE布局
DeepGEMM:https://github.com/deepseek-ai/DeepGEMM
Day4: 并行策略优化
并行计算策略是大模型训练的核心挑战之一,DeepSeek分享了多个并行计算优化工具。其中:DualPipe的双向流水线设计特别巧妙,它通过双向数据流打破了传统单向流水线的限制,充分利用了GPU集群的计算资源。而EPLB解决了MoE模型中常见的负载不均衡问题,这对于提高模型训练效率和硬件利用率至关重要。这些工具共同构成了一个完整的并行优化生态系统,为大规模模型训练提供了全方位的支持。
- DualPipe:一种双向流水线并行算法,用于V3/R1训练中的计算-通信重叠
- EPLB:V3/R1的专家并行负载均衡器
- 提供V3/R1计算-通信重叠分析工具
链接:
DualPipe:https://github.com/deepseek-ai/DualPipe
EPLB:https://github.com/deepseek-ai/eplb
计算-通信分析工具:https://github.com/deepseek-ai/profile-data
Day5: 3FS文件系统
随着模型和数据规模的不断增长,传统文件系统已无法满足AI工作负载的需求。为此,DS团队推出了Fire-Flyer文件系统(3FS),3FS文件系统的出现填补了AI领域专用存储系统的空白。
3FS的设计充分考虑了AI训练和推理的特殊需求,尤其是其高吞吐量和低延迟特性,对于大规模分布式训练至关重要。分离架构的设计也增强了系统的灵活性和可扩展性,这在快速迭代的AI研发环境中尤为重要。
3FS文件系统具体表现如下:
- 在180节点集群中实现6.6 TiB/s聚合读取吞吐量
- 在25节点集群的GraySort基准测试中实现3.66 TiB/min吞吐量
- 每个客户端节点的KVCache查找峰值吞吐量超过40 GiB/s
- 具有强一致性语义的分离架构
- 支持训练数据预处理、数据集加载、检查点保存/重载、嵌入向量搜索以及V3/R1推理的KVCache查找
链接:
3FS:https://github.com/deepseek-ai/3FS
Smallpond数据处理框架:https://github.com/deepseek-ai/smallpond
Day6: DS-V3/R1推理系统概述
DeepSeek分享了他们的V3/R1推理系统概述,DeepSeek的V3/R1推理系统展示了一个优化到极致的AI服务架构。特别引人注目的是其经济效益——545%的成本利润率意味着他们已经找到了将先进AI技术商业化的有效路径。这一成就不仅仅是技术层面的,更证明了良好的系统设计如何转化为实际的商业价值。他们通过跨节点批处理扩展和精细的负载均衡,有效解决了大模型推理的吞吐量和延迟平衡问题,为整个行业提供了宝贵的参考案例。
该系统通过以下方式优化吞吐量和延迟:
- 跨节点EP驱动的批处理扩展
- 计算-通信重叠
- 负载均衡
DeepSeek在线服务性能指标:
- 每个H800节点每秒处理73.7k输入/14.8k输出令牌
- 成本利润率高达545%
V3/R1推理详细介绍:https://bit.ly/4ihZUiO
总结
回顾DeepSeek开源的各个项目,可以看出一个清晰的技术路线图——他们不是零散地解决个别问题,而是构建了一个完整的AI基础设施栈。从底层的计算优化(DeepGEMM)到中间的通信层(DeepEP),再到存储系统(3FS)和整体并行策略(DualPipe、EPLB),最终集成为高效的推理服务。这种系统性思维反映了团队对AI系统全局的把握,而不仅仅是对某个特定技术点的优化。
特别值得称赞的是,DeepSeek团队在开源这些技术时,选择的是已经在生产环境中验证过的组件。这大大提高了这些开源项目的实用价值和可靠性,使其他开发者能够直接受益而无需经历漫长的调试过程。
从技术趋势来看,DeepSeek的开源项目涵盖了当前AI基础设施的几个关键方向:低精度高效计算(FP8支持)、混合专家模型优化(MoE相关工具)以及分布式系统高效协同。这些正是构建下一代AI系统的核心技术支柱。
最后,DeepSeek开源周彰显了开源精神的力量——在人工智能这一竞争激烈的领域,通过公开透明的技术分享,集众人之力,可以更快地推动前沿技术的发展与应用。这种开放的态度不仅有利于技术进步,也有助于构建一个更健康、更具创新活力的AI生态系统。