DeepSeek发展及创新

一.DeepSeek发展历程

DeepSeek V1:2023.11

DeepSeek V2:2024.05

DeepSeek R1-Lite:2024.11

DeepSeek V3:2024.12

DeepSeek R1:2025.01

二.DeepSeek创新

DeepSeek-R1-Zero:大规模RL训练,发现了RL训练的Scaling Laws,RL训练涌现“aha”时刻。

推理模型训练技术框架:4步法,有效解决了R1-Zero存在问题,将推理与对齐合为一体。

强化学习训练框架:GRPO,来自DeepSeekMath,降低了强化学习训练成本

推理模型蒸馏:将大模型推理能力蒸馏到小模型,优于小模型直接进行推理训练(规模效应)

三.总结

DeepSeek V2-V3及R1在模型架构上选择稀疏MoE模型而非稠密模型,并进行和积累了大量技术创新,包括MLA、FP8训练、MoE AIl-to-All通信瓶颈解决、MTP等这些技术并不是所有都是原始创新,但是能够进行如此多大模型架构底层创新的实验室,在全世界可能也只有少数几个;
DeepSeek所有模型架构上的创新均是围绕“降本增效”在基本不损害性能前提下,尽可能通过算法挖掘和提升硬件训练和解码效率

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值