读【DeepScaleR: Surpassing O1-Preview with a 1.5B Model by Scaling RL】--强化学习太有魔力了！！！

本文链接：https://blog.csdn.net/weixin_51606521/article/details/146052709

强化学习太有魔力了！！
原文
 中文下载链接md格式
RL魔法在空气中弥漫！我们隆重推出DeepScaleR-1.5B-Preview，这是一款基于Deepseek-R1-Distilled-Qwen-1.5B并通过简单强化学习（RL）进行微调的语言模型。它在AIME2024上实现了令人瞩目的43.1% Pass@1准确率（相比基础模型提升了14.3%），以仅1.5B的参数规模超越了OpenAI的o1-preview表现。为了更好地推动RL在智能扩展领域的进步，我们开源了数据集、代码及训练日志，期待与全球开发者共同探索前进！

在这里插入图片描述
译文如下：

介绍

近日，Deepseek-R1（一款与OpenAI的o1相媲美的模型）的开源发布，标志着在普及推理模型方面取得了重大进展。然而，其精确的训练方法、超参数以及底层系统仍未公开。在本研究中，我们朝着完全开放的训练方案迈出了一大步，旨在为推理模型扩展强化学习（RL）的应用。

扩展RL面临的最大挑战之一是高昂的计算成本。例如，我们发现直接复现DeepSeek-R1的实验（⩾32K上下文，约8000步）至少需要70,000个A100 GPU小时——即使对于1.5B参数的模型也是如此。为了解决这一问题，我们采用了蒸馏模型，并引入了一种新颖的迭代扩展方案，将计算需求大幅降低至仅3,800个A100 GPU小时——减少了18.42倍——同时仅用1.5B参数的模型就实现了超越OpenAI o1-preview的性能。

我们的研究证明，通过RL开发定制化推理模型不仅可以实现规模化，还可以显著降低成本。在接下来的内容中，我们将详细介绍数据集构建与训练方法，展示评估结果，并分享从研究中得出的关键见解。

DeepScaleR 的秘诀

数据集构建
对于我们的训练数据集，我们整合了1984-2023年的AIME题目以及2023年之前的AMC题目，同时还采用了来自Omni-MATH和Still数据集的问题，这些数据集涵盖了来自全球各地数学竞赛的题目。

我们的数据处理流程包括三个关键步骤：

答案提取：对于AMC和AIME等数据集，我们使用gemini-1.5-pro-002从官方AoPS解答中提取答案。
去除冗余问题：我们采用RAG（Retrieval-Augmented Generation）技术，结合sentence-transformers/all-MiniLM-L6-v2的嵌入向量，去除重复问题。为了防止数据污染，我们还检查了训练集与测试集之间的重叠部分。
过滤不可评分问题：某些数据集（如Omni-MATH）包含无法通过sympy自动评分的问题，需要借助LLM（大语言模型）进行评判。由于使用LLM评判可能会拖慢训练速度并引入噪声奖励信号，我们额外增加了一个过滤步骤，剔除这些不可评分的问题。

经过去重和过滤后，我们的最终训练数据集包含了约40,000个独特的问题-答案对。我们将在未来的扩展中进一步丰富数据集的内容。

奖励函数

在这里插入图片描述
正如Deepseek-R1所倡导的，我们采用**结果奖励模型（ORM）**而非过程奖励模型（PRM），以避免奖励作弊的风险。简而言之，我们的奖励函数规则如下：

1 - 如果LLM的答案通过基本的LaTeX/Sympy检查。
0 - 如果LLM的答案错误或格式不正确（例如缺少、分隔符）。

在扩展RL用于推理任务时，一个关键的挑战是选择最佳的训练上下文窗口大小。推理任务的计算强度极高，因为它们生成的输出比标准任务长得多，这会拖慢轨迹采样和策略梯度更新的速度。将上下文窗口大小翻倍至少会使训练计算量增加2倍。

这引出了一个基本的权衡：更长的上下文窗口为模型提供了更多思考空间，但同时会显著减缓训练速度；而较短的上下文窗口虽能加速训练，却可能限制模型解决需要较长上下文的复杂问题的能力。因此，在效率与准确性之间找到合适的平衡至关重要。

总结来说，我们的训练方案采用Deepseek的GRPO算法，并遵循以下两步：

第一步：我们在8K最大上下文窗口下进行RL训练，以实现更高效的推理和训练。
第二步：我们将训练扩展到16K和24K上下文窗口，使模型能够解决更具挑战性、以往无法解决的问题。

用8K上下文引导有效的思维链（CoT）

在启动完整训练之前，我们首先对Deepseek-R1-Distilled-Qwen-1.5B在AIME2024上的表现进行了评估，并分析了轨迹统计数据。我们发现，错误回答的token数量平均是正确回答的三倍（20,346 vs. 6,395）。这表明，过长的回答往往会导致错误结果。因此，直接使用长上下文窗口进行训练可能效率低下，因为大多数字符实际上被浪费了。此外，我们在评估日志中发现，冗长的回答表现出重复的模式，说明它们并未对有效的思维链（CoT）推理做出实质性贡献。
在这里插入图片描述

基于这一发现，我们以8K上下文窗口启动训练，初始在AIME2024上的准确率达到22.9%——仅比原始模型低6%。这一策略被证明是有效的：在训练过程中，平均训练奖励从46%提升至58%，而平均回答长度从5,500 token下降至3,500 token（见图2）。更重要的是，将输出限制在8K token内，使模型能够更有效地利用上下文。如图所示，我们的模型无论对于正确还是错误回答，都生成了显著更短的输出，同时在AIME准确率上超越了基础模型5%——且仅使用了三分之一的token。

在转折点扩展至16K上下文窗口

在这里插入图片描述
经过约1,000步训练后，我们观察到8K上下文窗口实验中出现了有趣的转折：响应长度开始再次增加。然而，这种增长并未带来预期收益——准确率曲线逐步趋平并最终下降。与此同时，响应截断率从4.2%攀升至6.5%，表明更多响应被上下文长度限制所截断。这些结果显示，模型试图通过"延长思考"来提升训练奖励。但随着生成的响应逐渐变长，它越来越频繁碰触到8K上下文窗口的上限，从而限制了进一步提升的空间。

我们视此为自然转折点，决定"打开笼门，任鸟高飞"。选择在第1,040步时的检查点（响应长度开始趋势性上升的节点），重新启动训练时扩展使用16K上下文窗口。这种两阶段训练法相比从零开始直接训练16K上下文模型显著提升效率：通过8K阶段的引导，平均响应长度保持在3,000 token而非9,000，使当前阶段训练速度至少提升2倍。

切换上下文窗口后，我们观察到训练奖励、响应长度及AIME准确率均保持持续提升。经过额外500步训练，平均响应长度从3,500 token增至5,500 token，AIME2024 Pass@1准确率达到38%。

施展24K进阶魔法，超越O1预研版

在16K上下文窗口下继续训练500步后，我们注意到性能提升趋于停滞——平均训练奖励收敛于62.5%，AIME Pass@1准确率在38%附近徘徊，响应长度也再度呈下降趋势。此时，最高响应截断率已逐步攀升至2%。

为实现对O1版本性能的最终突破，我们决定启用"24K进阶魔法"——将上下文窗口扩展至24K。我们选取16K训练阶段第480步的检查点，重新启动24K上下文窗口训练。

借助扩展的上下文窗口限制解除，模型终获全面突破。经过约50步训练，模型AIME准确率成功突破40%大关，并在第200步时达到43%。"24K进阶魔法"效果显著！

整个训练过程累计约1,750步。初始8K阶段采用8张A100 GPU进行训练，16K和24K阶段扩大至32张A100 GPU。总计耗资约3,800 A100小时，按32卡配置折合约5天训练时长，对应计算成本约4,500美元。

评估

我们在竞赛级数学基准测试中对模型进行了评估，测试集包括AIME 2024、AMC 2023、MATH-500、Minerva数学及奥赛基准库。下表中报告的是Pass@1准确率，每个题目通过16次采样取平均。带下划线的基线分数为自行验证结果。
在这里插入图片描述

我们将DeepScaleR模型与基础DeepSeek模型，以及近期探索强化学习在推理任务中应用的学术成果进行对比。结果显示，DeepScaleR在所有基准测试中均显著超越基模型，其中AIME2024提升14.4个百分点，总体平均提升8.1%。与基于70亿参数模型的近期研究（如rSTAR、Prime、SimpleRL）相比，DeepScaleR同样展现出优势。如图5所示，DeepScaleR以仅15亿参数的体量达到了O1预研版本的性能水平，展现出卓越的效能提升。
在这里插入图片描述

核心洞见

小模型亦可受益于RL扩展效果。 Deepseek-R1研究发现直接对小模型进行强化学习训练效果弱于知识蒸馏应用——经消融实验显示，在Qwen-32B模型上使用强化学习在AIME测试集仅获得47%准确率，而单纯蒸馏即达72.6%。这折射出普遍认知误区，认为强化学习的规模效应仅适用于大模型。但实验显示，通过从更大模型蒸馏获得优质监督微调数据后，小模型同样能有效借助强化学习提升推理能力。本研究结果印证了该结论：强化学习训练将AIME准确率从28.9%提升至43.1%。这些发现表明，单靠监督微调或强化学习均非最优解，只有将高质量SFT蒸馏与RL扩展有效结合，才能真正释放大语言模型的推理潜力。

迭代延伸策略催生更高效的长度扩展。已有研究[1、2]指出，直接进行16K上下文窗口的强化学习训练相比8K窗口无明显提升，可能源于算力不足使模型无法充分利用扩展语境。近期的研究[3]则表明过长的回答可能包含冗余的自我思考，最终导致错误结论。本文实验结果与这些观点一致。通过先在短上下文窗口（8K）优化模型推理能力，使后续16K、24K窗口训练更高效。这种迭代渐进的策略让模型在扩展上下文前建立了有效思维模式，从而使基于强化学习的长度扩展更具效率。

结语

本研究旨在揭示强化学习对大语言模型的规模效应，并向开源社区分享相关实践。DeepScaleR-1.5B-Preview是我们首款成果模型，以**43.1%**的Pass@1准确率超越o1-preview版本。我们坚信推广强化学习扩展应用需社区共同努力，热忱欢迎开源贡献与资源支持！让我们携手拓展大模型推理的强化学习前沿！