DeepSeek:纯强化学习能够让LLM学会推理

在这里插入图片描述

📖标题:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
🌐来源:arXiv, 2501.12948

🌟摘要

🔸我们介绍了我们的第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是一个通过大规模强化学习(RL)训练的模型,没有作为初步步骤的监督微调(SFT),表现出卓越的推理能力。通过RL,DeepSeek-R1-Zero自然地出现了许多强大而有趣的推理行为。然而,它遇到了可读性差和语言混合等挑战。
🔸为了解决这些问题并进一步提高推理性能,我们引入了DeepSeek-R1,它在RL之前结合了多阶段训练和冷启动数据。DeepSeekR1在推理任务上的性能与OpenAI-o1-1217相当。为了支持研究社区,我们开源了DeepSeek-R1-Zero、DeepSeek-R1,以及基于Qwen和Llama从DeepSeek-R2中提取的六个密集模型(1.5B、7B、8B、14B、32B、70B)。

🛎️文章简介

🔸研究问题:如何通过强化学习(RL)提升大语言模型(LLM)的推理能力,特别是在没有监督数据的情况下,探索模型如何通过自我进化来发展推理能力。
🔸主要贡献:论文提出了DeepSeek-R1和DeepSeek-R1-Zero两个模型,展示了通过纯强化学习显著提升模型推理能力的可能性,并通过蒸馏技术将大模型的推理能力迁移到小模型上,显著提升了小模型的性能。

📝重点思路

🔺DeepSeek-R1-Zero

🔸使用DeepSeek-V3-Base作为基础模型,并采用GRPO作为RL框架来提高模型的推理性能,避免了传统RL中需要与策略模型相同大小的评论家模型,从而节省了训练成本。
🔸采用基于规则的奖励系统,包括准确度奖励和格式奖励。
🔸但遇到了可读性差、语言混合等挑战。

🔺DeepSeek-R1

🔸收集少量长CoT数据(数千个)作为冷启动,微调DeepSeek-V3-Base模型。
🔸进行DeepSeek-R1-Zero相同的RL步骤,但仍会出现Zero的问题。
🔸在RL过程接近收敛时,选择检查点做拒绝采样创建新的SFT数据,整合DeepSeek-V3的监督数据以增强模型在写作、角色扮演和其他通用任务方面的能力。
🔸重新训练DeepSeek-V3-Base,再进行额外的RL过程。

🔺蒸馏技术

🔸将DeepSeek-R1的推理能力蒸馏到更小的密集模型(如Qwen和Llama系列),以提升数学、编程等推理任务上的表现。

🔎分析总结

🔸纯强化学习的有效性:DeepSeek-R1-Zero在不依赖任何监督数据的情况下,通过纯强化学习显著提升了推理能力,证明了RL可以激励模型的自我进化。
🔸蒸馏技术的优势:通过蒸馏技术,小模型(如DeepSeek-R1-Distill-Qwen-7B)在多个推理基准测试中表现优异,甚至超过了更大的模型(如QwQ-32B-Preview)。
🔸多阶段训练的效果:DeepSeek-R1通过引入冷启动数据和多阶段训练,进一步提升了模型的推理能力,最终在多个任务上达到了与OpenAI-o1-1217相当的性能。
🔸语言混合问题:尽管DeepSeek-R1在推理任务上表现出色,但在处理多语言查询时存在语言混合问题,未来需要进一步优化。

💡个人观点

论文的核心在于验证不依赖监督数据的情况下,纯强化学习能够提升LLM的推理能力。

🧩附录

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值