一.DeepSeek发展历程
DeepSeek V1:2023.11
DeepSeek V2:2024.05
DeepSeek R1-Lite:2024.11
DeepSeek V3:2024.12
DeepSeek R1:2025.01
二.DeepSeek创新
DeepSeek-R1-Zero:大规模RL训练,发现了RL训练的Scaling Laws,RL训练涌现“aha”时刻。
推理模型训练技术框架:4步法,有效解决了R1-Zero存在问题,将推理与对齐合为一体。
强化学习训练框架:GRPO,来自DeepSeekMath,降低了强化学习训练成本
推理模型蒸馏:将大模型推理能力蒸馏到小模型,优于小模型直接进行推理训练(规模效应)
三.总结
DeepSeek V2-V3及R1在模型架构上选择稀疏MoE模型而非稠密模型,并进行和积累了大量技术创新,包括MLA、FP8训练、MoE AIl-to-All通信瓶颈解决、MTP等这些技术并不是所有都是原始创新,但是能够进行如此多大模型架构底层创新的实验室,在全世界可能也只有少数几个;
DeepSeek所有模型架构上的创新均是围绕“降本增效”在基本不损害性能前提下,尽可能通过算法挖掘和提升硬件训练和解码效率