这几天！DeepSeek开源周 | 发布5个重要代码库，涉及AI基础设施建设的关键节点

本文链接：https://blog.csdn.net/yinizhilianlove/article/details/145990753

来源: AINLPer 微信公众号（每日论文干货分享！！）
编辑: ShuYini
校稿: ShuYini
时间: 2025-3-3

引言

DeepSeek开源周，向开发者社区分享他们在人工智能领域的最新技术成果，他们共计发布了五个重要代码库，几乎涉及了AI基础设施栈的各个关键节点，从底层的计算优化（FlashMLA、DeepGEMM）到中间的通信层（DeepEP），再到存储系统（3FS）和整体并行策略（DualPipe、EPLB），最终集成为高效的推理服务。太牛了！让我们一起欣赏一下吧。

FlashMLA
DeepEP
DeepGEMM
并行策略优化
3FS文件系统
DS-V3/R1推理系统概述

Day 1: FlashMLA

首日，DeepSeek发布了FlashMLA，这是一款为Hopper GPU优化的高效MLA解码内核。FlashMLA针对可变长度序列的优化非常关键，这解决了大语言模型解码过程中的一个痛点。

传统解码器在处理不同长度输入时效率往往大打折扣，而FlashMLA的分页KV缓存设计平衡了内存使用和计算效率，这对于降低大模型推理成本具有显著价值。当前该项技术已在生产环境中应用。

FlashMLA具备以下特点：

支持BF16精度
分页KV缓存（块大小64）
在H800上实现3000 GB/s内存绑定和580 TFLOPS计算绑定性能

FlashMLA: https://github.com/deepseek-ai/FlashMLA

Day2: DeepEP

第二天，团队推出了DeepEP，这是首个开源EP通信库，专为MoE（混合专家）模型训练和推理设计。DeepEP的出现意义重大，它解决了MoE模型中专家并行通信的核心挑战。随着MoE架构在大规模模型中的普及，高效的EP通信成为性能瓶颈。

DeepEP针对不同场景进行优化，其中：针对训练和推理预填充任务，提供高吞吐量，支持非对称域带宽转发(如从NVLink域到RDMA域)和SM资源控制；针对延迟敏感的推理解码场景，采用纯RDMA技术最小化延迟。

此外，DeepEP创新性地引入了基于钩子(hook-based)的通信-计算重叠方法，无需占用SM资源，进一步提升了系统效率，这对于构建更大规模、更经济高效的AI模型至关重要。

简单总结，DeepEP主要特性包括：

高效优化的全对全通信
同时支持节点内和节点间通信，兼容NVLink和RDMA
为训练和推理预填充提供高吞吐量内核
为推理解码提供低延迟内核
原生支持FP8调度
灵活的GPU资源控制，实现计算-通信重叠

DeepEP:https://github.com/deepseek-ai/DeepEP

Day3: DeepGEMM

第三天发布的DeepGEMM是一个专为FP8精度通用矩阵乘法(GEMMs)设计的高效库，其核心特点是实现了DeepSeek-V3中提出的精细粒度缩放方法。该库不仅支持常规矩阵乘法，还支持混合专家系统(MoE)的分组矩阵乘法。

DeepGEMM完全使用CUDA编写，通过轻量级的即时编译(JIT)模块实现运行时内核编译，避免了安装过程中的编译需求。目前，DeepGEMM专为NVIDIA Hopper张量核心优化，并采用CUDA核心二级累加技术解决FP8张量核心精度问题核心内核函数仅约300行代码。这种简洁设计使其成为学习Hopper FP8矩阵乘法和优化技术的理想资源。值得注意的是，尽管DeepGEMM设计轻量，其性能在各种矩阵形状下仍能达到或超越专家调优库的水平，展现了平衡简洁设计与高性能的技术实力。

简单来说，DeepGEMM是一个FP8 GEMM库，支持密集和MoE GEMM，为V3/R1训练和推理提供动力：

在Hopper GPU上实现高达1350+ FP8 TFLOPS的性能
无重度依赖，代码简洁如教程
完全即时编译
核心逻辑仅约300行代码，却在大多数矩阵尺寸上优于专家调优的内核
支持密集布局和两种MoE布局

DeepGEMM:https://github.com/deepseek-ai/DeepGEMM

Day4: 并行策略优化

并行计算策略是大模型训练的核心挑战之一，DeepSeek分享了多个并行计算优化工具。其中：DualPipe的双向流水线设计特别巧妙，它通过双向数据流打破了传统单向流水线的限制，充分利用了GPU集群的计算资源。而EPLB解决了MoE模型中常见的负载不均衡问题，这对于提高模型训练效率和硬件利用率至关重要。这些工具共同构成了一个完整的并行优化生态系统，为大规模模型训练提供了全方位的支持。

DualPipe：一种双向流水线并行算法，用于V3/R1训练中的计算-通信重叠
EPLB：V3/R1的专家并行负载均衡器
提供V3/R1计算-通信重叠分析工具

链接:

DualPipe：https://github.com/deepseek-ai/DualPipe

EPLB：https://github.com/deepseek-ai/eplb

计算-通信分析工具：https://github.com/deepseek-ai/profile-data

Day5: 3FS文件系统

随着模型和数据规模的不断增长，传统文件系统已无法满足AI工作负载的需求。为此，DS团队推出了Fire-Flyer文件系统（3FS），3FS文件系统的出现填补了AI领域专用存储系统的空白。

3FS的设计充分考虑了AI训练和推理的特殊需求，尤其是其高吞吐量和低延迟特性，对于大规模分布式训练至关重要。分离架构的设计也增强了系统的灵活性和可扩展性，这在快速迭代的AI研发环境中尤为重要。

3FS文件系统具体表现如下：

在180节点集群中实现6.6 TiB/s聚合读取吞吐量
在25节点集群的GraySort基准测试中实现3.66 TiB/min吞吐量
每个客户端节点的KVCache查找峰值吞吐量超过40 GiB/s
具有强一致性语义的分离架构
支持训练数据预处理、数据集加载、检查点保存/重载、嵌入向量搜索以及V3/R1推理的KVCache查找

链接:

3FS：https://github.com/deepseek-ai/3FS

Smallpond数据处理框架：https://github.com/deepseek-ai/smallpond

Day6: DS-V3/R1推理系统概述

DeepSeek分享了他们的V3/R1推理系统概述，DeepSeek的V3/R1推理系统展示了一个优化到极致的AI服务架构。特别引人注目的是其经济效益——545%的成本利润率意味着他们已经找到了将先进AI技术商业化的有效路径。这一成就不仅仅是技术层面的，更证明了良好的系统设计如何转化为实际的商业价值。他们通过跨节点批处理扩展和精细的负载均衡，有效解决了大模型推理的吞吐量和延迟平衡问题，为整个行业提供了宝贵的参考案例。

该系统通过以下方式优化吞吐量和延迟：

跨节点EP驱动的批处理扩展
计算-通信重叠
负载均衡

DeepSeek在线服务性能指标：

每个H800节点每秒处理73.7k输入/14.8k输出令牌
成本利润率高达545%

V3/R1推理详细介绍：https://bit.ly/4ihZUiO

总结

回顾DeepSeek开源的各个项目，可以看出一个清晰的技术路线图——他们不是零散地解决个别问题，而是构建了一个完整的AI基础设施栈。从底层的计算优化（DeepGEMM）到中间的通信层（DeepEP），再到存储系统（3FS）和整体并行策略（DualPipe、EPLB），最终集成为高效的推理服务。这种系统性思维反映了团队对AI系统全局的把握，而不仅仅是对某个特定技术点的优化。

特别值得称赞的是，DeepSeek团队在开源这些技术时，选择的是已经在生产环境中验证过的组件。这大大提高了这些开源项目的实用价值和可靠性，使其他开发者能够直接受益而无需经历漫长的调试过程。

从技术趋势来看，DeepSeek的开源项目涵盖了当前AI基础设施的几个关键方向：低精度高效计算（FP8支持）、混合专家模型优化（MoE相关工具）以及分布式系统高效协同。这些正是构建下一代AI系统的核心技术支柱。

最后，DeepSeek开源周彰显了开源精神的力量——在人工智能这一竞争激烈的领域，通过公开透明的技术分享，集众人之力，可以更快地推动前沿技术的发展与应用。这种开放的态度不仅有利于技术进步，也有助于构建一个更健康、更具创新活力的AI生态系统。

>>>>专注大模型/AIGC、学术前沿的知识分享！