北京大学:DeepSeek-R1_Kimi1.5及类强推理模型开发解读

6377f7ca2126b52fe9b8ca8202073a3c.jpeg

该文档围绕 DeepSeek - R1 和 Kimi 1.5 等强推理模型展开,详细介绍了模型的开发技术、优势、技术对比以及未来发展方向,旨在探讨强推理模型在人工智能领域的重要进展和应用潜力。

模型概述与意义

DeepSeek - R1 开创了 RL 加持下强推理慢思考范式新边界,在数学、代码、知识问答等任务上表现卓越,是开源领域的重要里程碑。其成功证明了强化学习在提升模型推理能力方面的巨大潜力。

技术剖析

  • DeepSeek - R1 Zero:无需监督微调 SFT,采用基于规则的奖励(准确率奖励 + 格式奖励 )和以推理为中心的大规模强化学习(GRPO),能自主涌现长文本推理和自我修复等能力。

  • DeepSeek - R1 技术 Pipeline:包括冷启动、推理为中心 RL、拒绝采样和全领域 SFT、全领域 RL 等阶段,通过多阶段训练提升模型推理链可读性、通用能力和安全性。

  • GRPO 算法:通过构建模型输出群组计算相对奖励估计基线,避免使用与策略模型相同大小的评论模型,降低计算成本,提升训练稳定性,有基于结果监督和过程监督两种方式。

技术亮点与收益

  • 技术亮点:跳过 SFT 阶段,节省标注成本,让模型自由探索;多阶段训练的冷启动使 RL 训练更稳定;具备强大的自验证和长链推理能力 ;采用语言一致性奖励等多目标优化策略。

  • 社会和经济效益:探索低成本高质量语言模型边界,促进资源优化、市场激活和高效创新,推动行业生态繁荣。

技术对比讨论

  • 与 Kimi K1.5 对比:二者都关注 RL 提升,Kimi K1.5 从 In - Context RL 出发训练模型 approximate Planning 过程,DS - R1 从纯 RL 入手利用 GRPO 和规则奖励激活模型能力。

  • 纯 RL 与 STaR - based 对比:STaR 将思考过程建模到 Next Token Prediction 中,通过迭代和微调学习 MetaCoT,但对问题结构要求高,难以融入 Rule - Based Reward;纯 RL 则直接激活基座模型推理潜力。

  • 蒸馏与强化学习对比:蒸馏可学习数据中的推理范式,但难以学习数学规律和 MetaCoT;强化学习通过试错学习推理规律,泛化性更强。

  • MCTS 和 PRM 分析:MCTS 应用于模型训练可能限制模型思考,PRM 存在自动化标注难、易被 reward hacking 等问题,但二者都有一定潜力。

未来技术展望

  • 长思维链可解释性:CoT 可提高模型可解释性,但不能完全解决问题,需结合多种方法防止模型欺骗。

  • 模态扩展与穿透:多模态场景下存在诸多挑战,提出从语言反馈中学习的模态统一范式 LLF,Align - Anything 框架支持全模态对齐。

  • 强推理赋能 Agentic 发展:利用强推理能力赋能 Agent 和具身智能,需克服内存和记忆模块等挑战。

  • 模型监管与安全保证:大模型存在弹性抗拒对齐,审计对齐 Deliberative Alignment 利用强推理能力学习安全规范,形式化验证可提升 AI 系统可靠性。

后台回复“250301A”,可获得下载资料的方法。

a41e65e73bf321fbe20d9358ba637422.jpeg

c96392821afbc54a90cd7713d5b3e4b0.jpeg

54ff7a32b90f704de0be94bcdf3ecb41.jpeg

4ac5d3ba6b35f01c6dbb2e40e167d797.jpeg

35eb98fddde0388217e46adeec53a968.jpeg

bf192f6688a53b7e4e49a92123889f11.jpeg

cd97609095c0dacf8632b338611a7659.jpeg

0e58e5415d038dd12f4a793b19d6e237.jpeg

ac50bf0746a51c0bcf4233369b4ccfad.jpeg

3be9fa81b10d639ac8e1e2a1688ef4a5.jpeg

641ac2ba681b96fbb2eba2dcb545dd87.jpeg

d58da8ab3871ef043047f81cae126ccb.jpeg

b8c3d41b1bac337ee0bb3772043a4728.jpeg

5a8cf4d336c88bca310ce0961aa5898d.jpeg

1562b11617b149ddec0e5c80caef1c82.jpeg

a03e976734b3c1308660cfe60f3a5f48.jpeg

3067520430e669859cac006bf48744e1.jpeg

0881207e7957d96864a288e5edce2063.jpeg

6e18f50fee4f068f0cc524c63e817bcb.jpeg

cdd3252ce941b41c912e613949256d8c.jpeg

2cc64cf4e9c8f67f23fdd69c843ef5b1.jpeg

4bf9ebeb3e7d9239b64f52cd8d193980.jpeg

18062e962d17ad7bd42f14a2dc7f32cd.jpeg

c78af8f1928339df1456b3709ef64585.jpeg

7e691aa7c271e5b3f1cb1312f0a8a6af.jpeg

481bc4a385ec5830f8845b9717835c4d.jpeg

ee9f9a274119cbc021f6cbdc450ae5e3.jpeg

076d2d954c9ab420fe463df9262bd824.jpeg

5f60855a5e89caeebe7a194be8be91f7.jpeg

7c16f8e7cd6609efcfc0b68880bc9c84.jpeg

abbbf6f29cf742b43f19296cfb868bae.jpeg

261a4ccbbc6cefae5517e2e1bffd80cf.jpeg

180ef5c46273c5b64a4e79c362eff8b9.jpeg

745c7ffaeda77bedfad1eeed8dbdbf47.jpeg

af91a7e3f44f234749ed1f619026d96b.jpeg

813b32d1a1c1f9edce2ff4a51fbe6417.jpeg

4b179168faec6237ac10d905efe5b1e5.jpeg

86d5aa6393e1410591847603d30ca217.jpeg

f42059cc1b73cbe79491683238ef9d16.jpeg

f4883f514cda2eaab84d73d43ebb2e90.jpeg

c558464466019d457c39a78e81254745.jpeg

e1369723f7595af36678ddf531a07548.jpeg

746402d92f015bfc3c63da71ff46e9df.jpeg

9af62a93080eff51ebd6006333af743c.jpeg

66e927b8cadfeadee84a913efa864b69.jpeg

本公号使用腾讯元器(使用DeepSeek R1大模型)创建了智能交通技术AI服务,欢迎扫码进入体验(或在后台使用私信对话)。

77fcf018eb99cc81ec76bf1903db5a78.jpeg

点击文后阅读原文,可获得下载资料的方法。

ad9189be2199c3d0f98a553619e7a6f3.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值