DeepSeek-R1:通过强化学习激励大型语言模型的推理能力

DeepSeek-AI:research@deepseek.com

摘要

我们介绍了我们的第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是一个通过大规模强化学习(RL)训练的模型,没有作为初步步骤的监督微调(SFT),表现出卓越的推理能力。通过RL,DeepSeek-R1-Zero自然地出现了许多强大而有趣的东西推理行为。然而,它遇到了可读性差和语言不通等挑战混合。为了解决这些问题并进一步提高推理性能,我们引入DeepSeek-R1在强化学习之前结合了多阶段训练和冷启动数据。DeepSeek R1在推理任务上的性能与OpenAI-o1-1217相当。为了支持研究社区,我们开源了DeepSeek-R1-Zero、DeepSeek-R1和六个密集模型基于Qwen和Llama从DeepSeek-R1蒸馏得到的(1.5B、7B、8B、14B、32B、70B)。
图1|DeepSeek-R1的基准性能。
图1|DeepSeek-R1的基准性能。

1.介绍

近年来,大型语言模型 (LLM) 一直在快速迭代和发展 (Anthropic, 2024; Google, 2024; OpenAI, 2024a), 逐步缩小与通用人工智能(AGI)的差距。

最近,后训练已成为整个训练流程的重要组成部分。事实证明,它可以提高推理任务的准确性,与社会价值观保持一致,并适应用户偏好,同时与预训练相比,所需的计算资源相对较少。在推理能力方面,OpenAI 的 o1 (OpenAI,2024b)系列模型首次通过增加思维链推理过程的长度来引入推理时间扩展。这种方法在数学、编码和科学推理等各种推理任务中取得了显著的进步。然而,有效的测试时间扩展的挑战仍然是研究界的一个悬而未决的问题。之前的一些研究已经探索了各种方法,包括基于过程的奖励模型(Lightman et al., 2023; Uesato et al., 2022; Wang et al., 2023),强化学习(Kumar et al., 2024)以及蒙特卡洛树搜索和束搜索等搜索算法(Feng et al., 2024; Trinh
et al., 2024; Xin et al., 2024)。但这些方法均未能达到与OpenAI的o1系列模型相当的通用推理性能。

在本文中,我们迈出了使用纯强化学习 (RL) 提高语言模型推理能力的第一步。我们的目标是探索 LLM 在没有任何监督数据的情况下开发推理能力的潜力,重点关注它们通过纯 RL 过程进行自我进化。具体来说,我们使用 DeepSeek-V3-Base 作为基础模型,并使用 GRPO (Shao et al., 2024)作为强化学习框架来提升模型的推理性能。在训练过程中,DeepSeek-R1-Zero 自然而然地涌现出了许多强大而有趣的推理行为。经过数千步的强化学习,DeepSeek-R1-Zero 在推理基准上表现出超强的性能。例如,在 AIME 2024 上的 pass@1 得分从 15.6% 提升到 71.0%,在多数投票的情况下,得分进一步提升到 86.7%,与 OpenAI-o1-0912 的表现相当。

然而,DeepSeek-R1-Zero 面临着可读性差、语言混杂等问题。为了解决这些问题,进一步提升推理性能,我们推出了 DeepSeek-R1,它采用了少量冷启动数据和多阶段训练流程。具体来说,我们首先收集数千个冷启动数据来微调 DeepSeek-V3-Base 模型,然后像 DeepSeek-R1-Zero 一样进行面向推理的强化学习。当强化学习过程接近收敛时,我们在强化学习检查点上通过拒绝采样创建新的 SFT 数据,结合 DeepSeek-V3 在写作、事实问答、自我认知等领域的监督数据,重新训练 DeepSeek-V3-Base 模型。在使用新数据进行微调后,检查点会经历额外的强化学习过程,涵盖所有场景的提示。经过这些步骤,我们得到了一个称为DeepSeek-R1的检查点,其性能与OpenAI-o1-1217相当。

我们进一步探索从 DeepSeek-R1 提炼到更小的密集模型。使用 Qwen2.5-32B (Qwen,2024b)作为基础模型,从 DeepSeek-R1 直接蒸馏的效果优于在其上应用强化学习。这表明,更大的基础模型发现的推理模式对于提高推理能力至关重要。我们开源了蒸馏后的 Qwen 和 Llama (Dubey 等人,2024)系列。值得注意的是,我们提炼的 14B 模型优于最先进的开源 QwQ-32B-Preview (Qwen,2024年)大幅领先,而提炼后的 32B 和 70B 模型在密集模型推理基准上创下了新纪录。

1.1贡献

训练后:基础模型上的大规模强化学习

  • 我们直接将 RL 应用于基础模型,而无需依赖监督微调 (SFT) 作为初步步骤。这种方法允许模型探索解决复杂问题的思路 (CoT),从而开发出 DeepSeek-R1-Zero。DeepSeek-R1-Zero 展示了自我验证、反思和生成长 CoT 等功能,标志着研究界的一个重要里程碑。值得注意的是,这是第一个公开研究,验证了 LLM 的推理能力可以纯粹通过 RL 来激励,而无需 SFT。这一突破为该领域的未来发展铺平了道路。
  • 我们引入了用于开发 DeepSeek-R1 的流水线。该流水线包含两个 RL 阶段,旨在发现改进的推理模式并与人类偏好保持一致,以及两个 SFT 阶段,作为模型推理和非推理能力的种子。我们相信该流水线将通过创建更好的模型使行业受益。

提炼:小模型同样强大

  • 我们证明了较大模型的推理模式可以提炼为较小的模型,与通过强化学习在小型模型上发现的推理模式相比,其性能更佳。开源的 DeepSeek-R1 及其 API 将有利于研究界在未来提炼出更好的小型模型。
  • 利用 DeepSeek-R1 生成的推理数据,我们对研究社区中广泛使用的几个密集模型进行了微调。评估结果表明,提炼后的较小密集模型在基准测试中表现优异。DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 上取得了 55.5% 的成绩,超过了 QwQ-32B-Preview。此外,DeepSeek-R1-Distill-Qwen-32B 在 AIME 2024 上的得分为 72.6%,在 MATH-500 上的得分为 94.3%,在 LiveCodeBench 上的得分为 57.2%。这些结果明显优于之前的开源模型,与 o1-mini 相当。我们向社区开源了基于 Qwen2.5 和 Llama3 系列的提炼后的 1.5B、7B、8B、14B、32B 和 70B 检查点。

1.2 评估结果摘要

  • 推理任务:(1)DeepSeek-R1 在 AIME 2024 上取得了 79.8% 的 Pass@1 分数,略高于 OpenAI-o1-1217。在 MATH-500 上,它取得了令人印象深刻的 97.3% 的分数,与 OpenAI-o1-1217 相当,并明显优于其他模型。(2)在与编码相关的任务中,DeepSeek-R1 在代码竞赛任务中展示了专家级水平,因为它在 Codeforces 上获得了 2,029 Elo 评级,比比赛中 96.3% 的人类参与者表现更好。对于与工程相关的任务,DeepSeek-R1 的表现略优于 DeepSeek-V3,这可以帮助开发人员完成现实世界的任务。
  • 知识:在 MMLU、MMLU-Pro 和 GPQA Diamond 等基准测试中,DeepSeek-R1 取得了出色的成绩,在 MMLU 上的得分为 90.8%,在 MMLU-Pro 上的得分为 84.0%,在 GPQA Diamond 上的得分为 71.5%,远远超过 DeepSeek-V3。虽然 DeepSeek-R1 在这些基准测试中的表现略低于 OpenAI-o1-1217,但它超越了其他闭源模型,展示了其在教育任务中的竞争优势。在事实基准 SimpleQA 上,DeepSeek-R1 的表现优于 DeepSeek-V3,展示了其处理基于事实的查询的能力。OpenAI-o1 在这个基准测试中超越 4o 也呈现出类似的趋势。
  • 其他:DeepSeek-R1 还在创意写作、一般问答、编辑、总结等一系列任务中表现出色。它在 AlpacaEval 2.0 上实现了令人印象深刻的长度控制胜率 87.6%,在 ArenaHard 上实现了 92.3% 的胜率,展示了其强大的智能处理非考试导向查询的能力。此外,DeepSeek-R1 在需要长上下文理解的任务上表现出色,在长上下文基准测试中大大优于 DeepSeek-V3。

2.方法

2.1.概述

先前的研究严重依赖大量监督数据来提高模型性能。在本研究中,我们证明,即使不使用监督微调 (SFT) 作为冷启动,大规模强化学习 (RL) 也可以显著提高推理能力。此外,通过加入少量冷启动数据可以进一步提高性能。在以下部分中,我们将介绍:(1) DeepSeek-R1-Zero,它将 RL 直接应用于基础模型,而无需任何 SFT 数据;(2) DeepSeek-R1,它从使用数千个长思路链 (CoT) 示例微调的检查点开始应用 RL。3) 将 DeepSeek-R1 的推理能力提炼到小型密集模型中。

2.2 DeepSeek-R1-Zero:基础模型上的强化学习

正如我们之前的工作所表明的那样,强化学习在推理任务中表现出了显著的有效性(Shao et al., 2024; Wang et al., 2023)。然而,这些作品严重依赖于监督数据,而收集这些数据需要耗费大量时间。在本节中,我们探讨了LLM在没有任何监督数据的情况下发展推理能力的潜力,通过纯粹的强化学习过程关注他们的自我进化。我们首先简要概述了我们的RL算法,然后介绍了一些令人兴奋的结果,并希望这能为社区提供有价值的见解。

2.2.1 强化学习算法

组相对策略优化为了节省RL的训练成本,我们采用组相对政策优化(GRPO)(Shao等人,2024),放弃了通常与策略模型大小相同的批评模型,而是根据组分数估计基线。具体来说,对于每个问题𝑞,GRPO从旧的输出𝜋𝜃old中采样一组输出{𝑜1, 𝑜2, · · · , 𝑜𝐺} 然后通过最大化以下目标来优化策略模型𝜋𝜃
J GRPO ( θ ) = E [ q ∼ P ( Q ) , { o i } i = 1 G ∼ π θ old ( O ∣ q ) ] \mathcal{J}_{\text{GRPO}}(\theta) = \mathbb{E}\left[q \sim P(Q), \{o_i\}_{i=1}^G \sim \pi_{\theta_{\text{old}}}(O|q)\right] JGRPO(θ)=E[qP(Q),{oi}i=1Gπθold(Oq)]

1 G ∑ i = 1 G ( min ⁡ ( π θ ( o i ∣ q ) π θ old ( o i ∣ q ) A i , clip ( π θ ( o i ∣ q ) π θ old ( o i ∣ q ) , 1 − ϵ , 1 + ϵ ) A i ) − β D K L ( π θ ∣ ∣ π ref ) ) \frac{1}{G} \sum_{i=1}^{G} \left( \min \left( \frac{\pi_\theta(o_i|q)}{\pi_{\theta_{\text{old}}}(o_i|q)} A_i, \text{clip} \left( \frac{\pi_\theta(o_i|q)}{\pi_{\theta_{\text{old}}}(o_i|q)}, 1 - \epsilon, 1 + \epsilon \right) A_i \right) - \beta \mathbb{D}_{KL}(\pi_\theta || \pi_{\text{ref}}) \right) G1i=1G(min(πθold(oiq)πθ(oiq)Ai,clip(πθold(oiq)πθ(oiq),1ϵ,1+ϵ)Ai)βDKL(πθ∣∣πref))

D K L ( π θ ∣ ∣ π ref ) = π ref ( o i ∣ q ) π θ ( o i ∣ q ) − log ⁡ π ref ( o i ∣ q ) π θ ( o i ∣ q ) − 1 \mathbb{D}_{KL}(\pi_\theta || \pi_{\text{ref}}) = \frac{\pi_{\text{ref}}(o_i|q)}{\pi_\theta(o_i|q)} - \log \frac{\pi_{\text{ref}}(o_i|q)}{\pi_\theta(o_i|q)} - 1 DKL(πθ∣∣πref)=πθ(oiq)πref(oiq)logπθ(oiq)πref(oiq)1

其中,𝜀和𝛽是超参数,𝐴𝑖是优势,使用与每组输出对应的一组奖励{𝑟1,𝑟2, . . . ,𝑟𝐺}计算:

A i = r i − mean ( { r 1 , r 2 , ⋯   , r G } ) std ( { r 1 , r 2 , ⋯   , r G } ) A_i = \frac{r_i - \text{mean}(\{r_1, r_2, \cdots, r_G\})}{\text{std}(\{r_1, r_2, \cdots, r_G\})} Ai=std({r1,r2,,rG})rimean({r1,r2,,rG})


用户和助手之间的对话。用户提出了一个问题,助手解决了这个问题。助手首先在脑海中思考推理过程,然后向用户提供答案。推理过程和答案包含在<think></inthink>和<answer></answer>标签中,即这里的<think>推理过程</ethink><answer>在这里回答</answer>。用户:prompt。助理:


表 1 | DeepSeek-R1-Zero模板。在训练过程中,提示将被替换为具体的推理问题。

2.2.2 奖励模型

奖励是训练信号的来源,它决定了RL的优化方向。为了训练DeepSeek-R1-Zero,我们采用了一种基于规则的奖励系统,主要由两种类型的奖励组成:

  • 准确性奖励:准确性奖励模型评估响应是否正确。例如,在具有确定性结果的数学问题的情况下,模型需要以指定的格式(例如,在框内)提供最终答案,从而能够对正确性进行可靠的基于规则的验证。同样,对于LeetCode问题,可以使用编译器根据预定义的测试用例生成反馈。
  • 格式奖励:除了准确性奖励模型外,我们还采用了一种格式奖励模型,该模型强制该模型将其思维过程置于“<think>”和“</inthink>”标签之间。

我们在开发DeepSeek-R1-Zero时没有应用结果或过程神经奖励模型,因为我们发现神经奖励模型在大规模强化学习过程中可能会遭受奖励黑客攻击,而重新训练奖励模型需要额外的训练资源,这使整个训练管道变得复杂。

2.2.3. 培训模板

为了训练DeepSeek-R1-Zero,我们首先设计了一个简单的模板,引导基础模型遵守我们指定的指令。如表1所示,该模板要求DeepSeek-R1-Zero首先生成推理过程,然后生成最终答案。
我们有意将约束限制在这种结构格式上,避免任何特定于内容的偏见,例如强制进行反思性推理或推广特定的问题解决策略,以确保我们能够在强化学习过程中准确观察模型的自然进程。

2.2.4. DeepSeek-R1-Zero 的性能、自我进化过程和顿悟时刻

DeepSeek-R1-Zero的性能图2描绘了DeepSeek R1 Zero在整个RL训练过程中在AIME 2024基准上的性能轨迹。如图所示,DeepSeek-R1-Zero在强化学习训练中表现出稳定和一致的性能提升。值得注意的是,平均pass@1AIME 2024的得分显著提高,从最初的15.6%跃升至令人印象深刻的71.0%,达到了与OpenAI-o1-0912相当的性能水平。这一显著改进突显了我们的RL算法在优化模型性能方面的有效性。
DeepSeek-R1-Zero和OpenAI o1模型在推理相关基准上的比较。
表2 | DeepSeek-R1-Zero和OpenAI o1模型在推理相关基准上的比较。
DeepSeek-R1-Zero在训练期间的AIME精度
图2|DeepSeek-R1-Zero在训练期间的AIME精度。对于每个问题,我们抽取16个答案并计算总体平均准确率,以确保稳定的评估。

表2提供了DeepSeek-R1-Zero和OpenAI的o1-0912模型在各种推理相关基准测试中的比较分析。研究结果表明,RL使DeepSeek-R1-Zero能够在不需要任何监督微调数据的情况下获得强大的推理能力。这是一项值得注意的成就,因为它强调了该模型仅通过RL有效学习和推广的能力。此外,DeepSeek R1 Zero的性能可以通过多数投票的应用进一步增强。例如,当AIME基准采用多数投票时,DeepSeek-R1-Zero的表现从71.0%上升到86.7%,从而超过了OpenAI-o1-0912的表现。DeepSeek-R1-Zero在有和没有多数投票的情况下都能实现如此有竞争力的性能,这突显了其强大的基础能力及其在推理任务方面进一步发展的潜力。

DeepSeek-R1-Zero的自进化过程
DeepSeek-R1-Zero的自进化过程是一个引人入胜的演示,展示了RL如何驱动模型自主提高其推理能力。通过直接从基础模型启动RL,我们可以密切监控模型的进展,而不受监督微调阶段的影响。这种方法清晰地展示了模型如何随时间演变,特别是在处理复杂推理任务的能力方面。
在这里插入图片描述
图3|RL过程中DeepSeek-R1-Zero在训练集上的平均响应长度。DeepSeek-R1-Zero自然学会用更多的思考时间来解决推理任务。

如图3所示,DeepSeek-R1-Zero的思考时间在整个训练过程中持续提高。这种改进不是外部调整的结果,而是模型内部的内在发展。DeepSeek-R1-Zero通过利用延长的测试时间计算,自然获得了解决日益复杂的推理任务的能力。这种计算范围从生成数百到数千个推理tokens,使模型能够更深入地探索和完善其思维过程。

这种自我进化最显著的方面之一是随着测试时间计算的增加,复杂行为的出现。反思(模型修改和重新评估其先前步骤)和探索解决问题的替代方法等行为是自发产生的。这些行为不是明确编程的,而是模型与强化学习环境交互的结果。这种自发开发显著增强了DeepSeek-R1-Zero的推理能力,使其能够以更高的效率和准确性处理更具挑战性的任务

DeepSeek-R1-Zero 的顿悟时刻
DeepSeek-R1-Zero训练过程中观察到的一个特别有趣的现象是“顿悟时刻”的发生。如表3所示,这一时刻发生在模型的中间版本中。在此阶段,DeepSeek-R1-Zero通过重新评估其初始方法,学会为问题分配更多的思考时间。这种行为不仅证明了模型不断增长的推理能力,也是强化学习如何产生意想不到的复杂结果的一个迷人例子。

这一时刻不仅是模型的“顿悟时刻”,也是研究人员观察其行为的时刻。它强调了强化学习的力量和美丽:我们不是明确地教授模型如何解决问题,而是简单地为其提供正确的激励,它自主地开发出高级的解决问题的策略。“顿悟时刻”有力地提醒我们,强化学习有潜力在人工系统中解锁新的智能水平,为未来更自主和自适应的模型铺平道路。
解题过程
表3|DeepSeek-R1-Zero中间版本的一个有趣的“顿悟时刻”。该模型学会了使用拟人化的语气进行重新思考。这对我们来说也是一个顿悟的时刻,让我们见证了强化学习的力量和美丽。

DeepSeek-R1-Zero 的缺点
尽管DeepSeek-R1-Zero表现出强大的推理能力,并自主开发出意想不到的强大推理行为,但它面临着几个问题。例如,DeepSeek-R1-Zero面临着可读性差和语言混合等挑战。为了使推理过程更具可读性并与开放社区共享,我们探索了DeepSeek-R1,这是一种利用RL和人类友好的冷启动数据的方法。

2.3. DeepSeek-R1:冷启动强化学习

受到 DeepSeek-R1-Zero 良好结果的启发,我们自然而然地产生了两个问题:1)通过引入少量高质量数据作为冷启动,是否可以进一步提高推理性能或加速收敛?2)如何训练一个用户友好的模型,该模型不仅可以产生清晰连贯的思维链 (CoT),而且还具有强大的通用能力?为了解决这些问题,我们设计了一个流程来训练 DeepSeek-R1。该流程由四个阶段组成,概述如下。

2.3.1. 冷启动

与DeepSeek-R1-Zero不同,为了防止基于基础模型的RL训练早期出现不稳定的冷启动阶段,对于DeepSeek-R1,我们构建并收集了少量长CoT(Chain of Thought)数据来微调模型,作为初始的RL执行者。为了收集这样的数据,我们探索了几种方法:使用带有长CoT的例子进行few-shot提示,直接提示模型生成包含反思和验证的详细答案,以可读格式收集DeepSeek-R1-Zero的输出,并通过人类标注者的后处理来精炼结果。

在这项工作中,我们收集了数千个冷启动数据,以微调DeepSeek-V3-Base作为RL的起点。与DeepSeek-R1-Zero相比,冷启动数据的优点包括:

  • 可读性:DeepSeek-R1-Zero的一个关键局限是其内容通常不适合阅读。回答可能混合了多种语言或缺乏markdown格式来突出显示给用户的答案。相比之下,在为DeepSeek-R1创建冷启动数据时,我们设计了一种可读模式,该模式包括在每个响应末尾加上总结,并过滤掉对读者不友好的响应。这里,我们将输出格式定义为|special_token|<reasoning_process>|special_token|,其中推理过程是查询的CoT(思维链),而总结用于概括推理结果。
  • 潜力:通过使用人类先验精心设计冷启动数据的模式,我们观察到相比DeepSeek-R1-Zero有更好的性能表现。我们相信迭代训练对于推理模型来说是一种更好的方法。
2.3.2. 面向推理的强化学习

在冷启动数据上对DeepSeek-V3-Base进行微调后,我们应用了与DeepSeek-R1-Zero相同的大型强化学习训练过程。此阶段专注于增强模型的推理能力,特别是在编码、数学、科学和逻辑推理等推理密集型任务中,这些任务涉及定义明确且解决方案清晰的问题。在训练过程中,我们注意到CoT(思维链)经常表现出语言混合的现象,尤其是在RL提示涉及多种语言时。为了缓解语言混合的问题,我们在RL训练中引入了一个语言一致性奖励,该奖励计算为CoT中目标语言词汇的比例。尽管消融实验显示这种调整会导致模型性能轻微下降,但这一奖励符合人类偏好,使其更具可读性。最后,我们将推理任务的准确性与语言一致性的奖励直接相加,形成最终奖励。然后,我们在微调后的模型上应用RL训练,直到它在推理任务上达到收敛。

2.3.3. 拒绝抽样和监督微调

当面向推理的RL收敛时,我们利用得到的检查点收集SFT(监督微调)数据,用于下一轮使用。与主要关注推理的初始冷启动数据不同,此阶段整合了来自其他领域的数据,以增强模型在写作、角色扮演和其他通用任务方面的能力。具体来说,我们按照如下所述生成数据并对模型进行微调。

推理数据
我们整理推理提示并生成推理轨迹,方法是从上述RL训练的检查点执行拒绝采样。在前一阶段,我们仅包含了可以使用基于规则的奖励进行评估的数据。然而,在此阶段,我们通过合并其他数据来扩展数据集,其中一部分数据使用生成奖励模型,通过将ground-truth和模型预测输入DeepSeek-V3来进行判断。此外,由于模型输出有时混乱且难以阅读,我们过滤掉了包含混合语言、长段落和代码块的思维链。对于每个提示,我们采样多个响应,只保留正确的那些。总计,我们收集了大约60万与推理相关的训练样本。

非推理数据
对于非推理数据,例如写作、事实问答、自我认知和翻译,我们采用 DeepSeek-V3 流程并重用 DeepSeek-V3 的部分 SFT 数据集。对于某些非推理任务,我们会调用 DeepSeek-V3 生成潜在的思路链,然后再通过提示回答问题。但是,对于更简单的查询,例如“你好”,我们不提供 CoT 作为响应。最终,我们总共收集了大约 20 万个与推理无关的训练样本。

我们使用上面整理的约 800k 个样本的数据集对 DeepSeek-V3-Base 进行了两个时期的微调。

2.3.4. 适用于所有场景的强化学习

为了进一步使模型与人类偏好保持一致,我们实施了第二阶段的强化学习,旨在提高模型的有用性和无害性,同时优化其推理能力。具体而言,我们结合奖励信号和多样化的提示分布来训练模型。对于推理数据,我们遵循DeepSeek-R1-Zero中概述的方法,该方法利用基于规则的奖励来指导数学、代码和逻辑推理领域的学习过程。对于通用数据,我们依赖奖励模型来捕捉复杂和微妙场景中的人类偏好。我们在DeepSeek-V3流程的基础上,采用了类似的偏好对和训练提示分布。在有用性方面,我们专注于最终总结,确保评估强调响应对用户的实用性和相关性,同时尽量减少对底层推理过程的干扰。在无害性方面,我们评估模型的整个响应,包括推理过程和总结,以识别并减轻生成过程中可能出现的任何潜在风险、偏见或有害内容。最终,通过整合奖励信号和多样化的数据分布,我们能够训练出一个在推理方面表现出色,同时优先考虑有用性和无害性的模型。

2.4. 蒸馏:赋予小模型推理能力

为了使更高效的较小模型具备像DeepSeek-R1那样的推理能力,我们直接使用DeepSeek-R1整理的80万样本对开源模型如Qwen(Qwen, 2024b)和Llama(AI@Meta, 2024)进行了微调,详细过程见§2.3.3。我们的研究发现,这种直接蒸馏方法显著增强了较小模型的推理能力。这里使用的基模型包括Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B和Llama-3.3-70B-Instruct。我们选择Llama-3.3是因为它的推理能力略优于Llama-3.1。
对于蒸馏后的模型,我们仅应用了SFT(监督微调),并未包含RL阶段,尽管加入RL阶段可能会大幅提高模型性能。我们的主要目标是展示蒸馏技术的有效性,而将RL阶段的探索留给更广泛的研究社区。

3. 实验

基准
我们在MMLU(Hendrycks等人,2020年)、MMLU-Redux(Gema等人,2024年)、MMLU-Pro(Wang等人,2024年)、C-Eval(Huang等人,2023年)、CMMLU(Li等人,2023年)、IFEval(Zhou等人,2023年)、FRAMES(Krishna等人,2024年)、GPQA Diamond(Rein等人,2023年)、SimpleQA(OpenAI,2024c)、C-SimpleQA(He等人,2024年)、SWE-Bench Verified(OpenAI,2024d)、Aider 1、LiveCodeBench(Jain等人,2024)(2024年8月至2025年1月)、Codeforces 2、中国国家高中数学奥林匹克(CNMO 2024)3以及美国邀请数学考试2024(AIME 2024)(MAA,2024年)上评估模型。除了这些标准基准测试外,我们还使用大型语言模型作为评判,在开放式生成任务上评估我们的模型。具体来说,我们遵循AlpacaEval 2.0(Dubois等人,2024年)和Arena-Hard(Li等人,2024年)的原始配置,这些配置利用GPT-4-Turbo-1106进行成对比较的评判。在此过程中,我们仅提供最终总结给评判系统,以避免长度偏差。对于蒸馏模型,我们在AIME 2024、MATH-500、GPQA Diamond、Codeforces和LiveCodeBench上报告代表性结果。

评估提示
按照 DeepSeek-V3 中的设置,使用 simple-evals 框架中的提示评估 MMLU、DROP、GPQA Diamond 和 SimpleQA 等标准基准。对于 MMLU-Redux,我们采用 Zero-Eval 提示格式 (Lin,2024)在零样本设置下进行。对于 MMLU-Pro、C-Eval 和 CLUE-WSC,由于原始提示是少样本的,我们将提示稍微修改为零样本设置。少样本中的 CoT 可能会损害 DeepSeek-R1 的性能。其他数据集遵循其原始评估协议,使用其创建者提供的默认提示。对于代码和数学基准,HumanEval-Mul 数据集涵盖了八种主流编程语言(Python、Java、C++、C#、JavaScript、TypeScript、PHP 和 Bash)。使用 CoT 格式评估 LiveCodeBench 上的模型性能,数据收集时间为 2024 年 8 月至 2025 年 1 月。使用来自 10 个 Div.2 竞赛的问题以及专家制作的测试用例对 Codeforces 数据集进行评估,之后计算竞争对手的预期评分和百分比。通过无代理框架获得 SWE-Bench 验证结果 (Xia et al.,2024)。AIDER相关基准测试采用“diff”格式进行测量。每个基准测试的DeepSeek-R1输出上限为32,768个token。

基线
我们对多个强大的基线模型进行了全面评估,包括DeepSeek-V3、Claude-Sonnet-3.5-1022、GPT-4o-0513、OpenAI-o1-mini和OpenAI-o1-1217。由于在中国大陆访问OpenAI-o1-1217的API存在困难,我们根据官方报告记录了其性能。对于蒸馏模型,我们还比较了开源模型QwQ-32B-Preview(Qwen, 2024a)。

评估设置
评估设置 我们将模型的最大生成长度设置为32,768个tokens。我们发现,使用贪婪解码来评估长输出推理模型会导致更高的重复率和不同检查点之间的显著变异性。因此,我们默认采用pass@k评估(Chen等人,2021年),并使用非零温度报告pass@1。具体来说,我们使用采样温度为0.6和top-p值为0.95来生成k个响应(通常在4到64之间,取决于测试集的大小),每个问题生成一次。pass@1的计算公式如下:
pass@1 = 1 k ∑ i = 1 k p i , \text{pass@1} = \frac{1}{k} \sum_{i=1}^{k} p_i, pass@1=k1i=1kpi,

其中 pi 表示第 i 个响应的正确性。这种方法提供了更可靠的性能估计。对于AIME 2024,我们也报告了共识(多数投票)结果(Wang等人,2022年),使用64个样本,标记为cons@64。

1、https://aider.chat/
2、https://codeforces.com/
3、https://www.cms.org.cn/Home/comp/comp/cid/12.html

3.1DeepSeek-R1 评估

表 4:DeepSeek-R1与其他代表模型的比较。
表 4:DeepSeek-R1与其他代表模型的比较

对于面向教育的知识基准测试,如MMLU、MMLU-Pro和GPQA Diamond,DeepSeek-R1相比DeepSeek-V3展示了更优越的性能。这一改进主要归因于在STEM相关问题上的准确性提高,通过大规模强化学习实现了显著的增益。此外,DeepSeek-R1在依赖长上下文的问答任务FRAMES上表现突出,展现了其强大的文档分析能力。这凸显了推理模型在AI驱动的搜索和数据分析任务中的潜力。在基于事实的基准测试SimpleQA上,DeepSeek-R1也超越了DeepSeek-V3,展示了它处理基于事实查询的能力。类似的趋势也出现在OpenAI-o1在此基准测试中超越GPT-4o的情况。然而,在中文SimpleQA基准测试上,DeepSeek-R1的表现不如DeepSeek-V3,主要是因为它在接受安全强化学习后倾向于拒绝回答某些查询。如果不进行安全强化学习,DeepSeek-R1的准确率可以超过70%。

DeepSeek-R1在评估模型遵循格式指令能力的基准测试IF-Eval上也取得了令人印象深刻的成绩。这些改进可以归因于在监督微调(SFT)和强化学习(RL)训练的最后阶段纳入了遵循指令的数据。此外,在AlpacaEval2.0和ArenaHard上的表现尤为突出,这表明DeepSeek-R1在写作任务和开放式领域问答中的优势。其对DeepSeek-V3的显著超越强调了大规模RL的泛化优势,这不仅提升了推理能力,还改善了在不同领域的性能。此外,DeepSeek-R1生成的摘要长度简洁,在ArenaHard上平均为689个tokens,在AlpacaEval 2.0上为2,218个字符。这表明DeepSeek-R1在基于GPT的评估中避免引入长度偏差,进一步巩固了其在多个任务中的稳健性。

在数学任务方面,DeepSeek-R1的表现与OpenAI-o1-1217相当,并且大幅度超越其他模型。在LiveCodeBench和Codeforces等编程算法任务上也观察到了类似的趋势,其中以推理为中心的模型主导了这些基准测试。在面向工程的编码任务上,OpenAI-o1-1217在Aider上优于DeepSeek-R1,但在SWE Verified上实现了可比的性能。我们认为随着相关RL训练数据量的增加,DeepSeek-R1在下一个版本中的工程性能将会有所提升,因为目前这类数据仍然非常有限。

3.2. 蒸馏模型评估

蒸馏模型评估
表 5:DeepSeek-R1 提炼模型与其他类似模型在推理相关基准上的比较

如表5所示,简单地提炼DeepSeek-R1的输出就能使高效的DeepSeek-R1-7B(即DeepSeek-R1-Distill-Qwen-7B,以下类似缩写)在所有方面超越非推理模型如GPT-4o-0513。DeepSeek-R1-14B在所有评估指标上都超过了QwQ-32B预览版,而DeepSeek-R1-32B和DeepSeek-R1-70B在大多数基准测试中显著超越o1-mini。这些结果展示了提炼的强大潜力。此外,我们发现将RL应用于这些提炼模型中能带来显著的进一步提升。我们认为这值得进一步探索,因此这里仅呈现简单经过SFT提炼的模型的结果。

4. 讨论

4.1. 蒸馏与强化学习

在3.2节中,我们可以看到,通过蒸馏 DeepSeek-R1,小模型可以取得令人印象深刻的效果。然而,还有一个问题:如果不进行蒸馏,模型是否可以通过论文中讨论的大规模 RL 训练获得相当的性能?
在推理相关基准上对提炼模型和 RL 模型进行比较
表 6:在推理相关基准上对提炼模型和 RL 模型进行比较

为了回答这个问题,我们使用数学、代码和 STEM 数据对 Qwen-32B-Base 进行了大规模 RL 训练,训练了超过 10K 步,最终得到了 DeepSeek-R1-Zero-Qwen-32B。实验结果(如表6所示)表明,经过大规模 RL 训练后,32B 基础模型的性能与 QwQ-32B-Preview 相当。然而,从 DeepSeek-R1 提炼出来的 DeepSeek-R1-Distill-Qwen-32B 在所有基准测试中的表现都明显优于 DeepSeek-R1-Zero-Qwen-32B。

因此,我们可以得出两个结论:第一,将更强大的模型提炼成更小的模型可以产生很好的效果,而本文提到的依赖于大规模强化学习的小模型需要巨大的计算能力,甚至可能无法达到提炼的性能。第二,虽然提炼策略既经济又有效,但要超越智能的界限,可能仍需要更强大的基础模型和更大规模的强化学习。

4.2. 失败的尝试

在开发DeepSeek-R1的早期阶段,我们也遇到了失败和挫折。我们在这里分享我们的失败经验以提供见解,但这并不意味着这些方法无法开发出有效的推理模型。

过程奖励模型(PRM)
过程奖励模型(PRM)是一种引导模型找到解决推理任务更好方法的合理手段(Lightman等人,2023;Uesato等人,2022;Wang等人,2023)。然而,在实践中,PRM有三个主要限制可能会阻碍其最终成功。首先,通常来说,在一般推理中明确界定一个细粒度步骤是具有挑战性的。其次,判断当前的中间步骤是否正确是一项艰巨的任务。使用模型进行自动标注可能不会得到满意的结果,而手动标注则不利于扩大规模。第三,一旦引入基于模型的PRM,不可避免地会导致奖励篡改(Gao等人,2022),重新训练奖励模型需要额外的训练资源,并且会使整个训练流程复杂化。总之,尽管PRM展示出了对模型生成的前N个响应进行重新排序或辅助引导搜索的良好能力(Snell等人,2024),但在我们的实验中,与大规模强化学习过程中引入的额外计算开销相比,其优势是有限的。

蒙特卡洛树搜索(MCTS)
受到AlphaGo(Silver等人,2017b)和AlphaZero(Silver等人,2017a)的启发,我们尝试使用蒙特卡洛树搜索(MCTS)来增强测试时计算的可扩展性。这种方法涉及将答案分解为更小的部分,以允许模型系统地探索解决方案空间。为此,我们提示模型生成多个标签,这些标签对应于搜索所需的特定推理步骤。在训练中,我们首先使用收集到的提示通过预训练的价值模型指导的MCTS来找到答案。然后,我们使用得到的问题-答案对来训练行动者模型和价值模型,迭代地精炼这个过程。

然而,当扩大训练规模时,这种方法遇到了几个挑战。首先,不像象棋中的搜索空间相对明确,标记生成呈现出指数级更大的搜索空间。为了解决这个问题,我们为每个节点设定了一个最大的扩展限制,但这可能导致模型陷入局部最优。其次,价值模型直接影响生成的质量,因为它指导着搜索过程的每一步。训练一个细粒度的价值模型本质上是困难的,这使得模型难以迭代改进。虽然AlphaGo的核心成功依赖于训练一个价值模型以逐步提升其性能,但由于标记生成的复杂性,这一原则在我们的设置中证明很难复制。

总之,虽然与预训练的价值模型结合使用时,MCTS可以在推理过程中提高性能,但通过自我搜索迭代地提升模型性能仍然是一个重大挑战。

5. 结论、局限性和未来工作

在这项工作中,我们分享了通过强化学习增强模型推理能力的历程。DeepSeek-R1-Zero 代表了一种不依赖冷启动数据的纯 RL 方法,在各种任务中都取得了出色的性能。DeepSeek-R1 更强大,它利用冷启动数据和迭代 RL 微调。最终,DeepSeek-R1 在一系列任务上实现了与 OpenAI-o1-1217 相当的性能。

我们进一步探索将推理能力提炼到小型密集模型。我们使用 DeepSeek-R1 作为教师模型来生成 800K 个训练样本,并对几个小型密集模型进行微调。结果令人鼓舞:DeepSeek-R1-Distill-Qwen-1.5B 在数学基准测试中的表现优于 GPT-4o 和 Claude-3.5-Sonnet,在 AIME 上为 28.9%,在 MATH 上为 83.9%。其他密集模型也取得了令人印象深刻的结果,显著优于基于相同底层检查点的其他指令调整模型。

未来我们计划针对DeepSeek-R1在以下方向投入研究。

  • 通用能力: 目前 DeepSeek-R1 在函数调用、多回合、复杂角色扮演、JSON 输出等任务上的能力还不及 DeepSeek-V3。未来我们计划探索如何利用 CoT 来增强这些领域的任务。
  • 语言混合: DeepSeek-R1 目前针对中文和英文进行了优化,这可能会导致在处理其他语言的查询时出现语言混合问题。例如,即使查询使用的语言不是英文或中文,DeepSeek-R1 也可能使用英文进行推理和响应。我们计划在未来的更新中解决这一限制。
  • 提示工程:在评估 DeepSeek-R1 时,我们观察到它对提示很敏感。少量提示会持续降低其性能。因此,我们建议用户直接描述问题并使用零样本设置指定输出格式以获得最佳结果。
  • 软件工程任务: 由于评估时间较长,影响了 RL 流程的效率,大规模 RL 尚未广泛应用于软件工程任务。因此,DeepSeek-R1 在软件工程基准测试中并未表现出比 DeepSeek-V3 更大的改进。未来版本将通过对软件工程数据实施拒绝采样或在 RL 流程中加入异步评估来解决这个问题,以提高效率。

参考

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

附录

A. 贡献与致谢

核心贡献者:
Guo Daya
Yang Dejian
Zhang Haowei
Song Junxiao
Zhang Ruoyu
Xu Runxin
Zhu Qihao
Ma Shirong
Wang Peiyi
Bi Xiao
Zhang Xiaokang
Yu Xingkai
Wu Yu
Wu Z.F.
Gou Zhibin
Shao Zhihong
Li Zhoushu
Gao Ziyi

贡献者:

在每个角色中,作者按名字的字母顺序排列。标有*的姓名表示已离开我们团队的个人。

原文链接

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值