一、DeepSeek降低训练成本的核心方法
1.1 创新训练方法
DeepSeek 通过独特的训练方案显著降低了训练成本。其核心策略包括减少监督微调(SFT)步骤,仅依赖强化学习(RL)技术。DeepSeek-R1-Zero 版本完全跳过 SFT,仅通过 RL 进行训练。尽管初期计算开销较大,但添加少量冷启动数据后,训练稳定性和模型推理能力大幅提升。此外,DeepSeek 还采用了组相对策略优化(GRPO)算法替代传统的近端策略优化(PPO),无需单独的价值模型,采用基于组的相对优势估计,显著降低了内存和计算开销,同时增强了模型的数学推理能力。
1.2 算法优化
DeepSeek 在算法优化方面采取了多项创新措施。例如,其无损平衡(Loss-Free Balancing)策略通过动态更新专家偏见,确保专家负载均衡分布,避免了传统辅助损失方法带来的干扰梯度,提升了模型性能。此外,DeepSeek 团队还开发了高效的流水线并行算法 DualPipe,通过精细控制分配给计算和通信的 GPU SM 数量,实现计算和通信完全重叠,进一步提高了 GPU 资源的利用率。这些优化措施使得 DeepSee