📖标题:DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition
🌐来源:arXiv, 2504.21801
🌟摘要
🔸我们介绍了 DeepSeek-Prover-V2,这是一种专为 Lean 4 中的形式定理证明而设计的开源大型语言模型,通过由 DeepSeek-V3 驱动的递归定理证明管道收集的初始化数据。
🔸冷启动训练过程首先提示 DeepSeek-V3 将复杂问题分解为一系列子目标。将已解决子目标的证明合成为思维链过程,结合 DeepSeek-V3 的逐步推理,为强化学习创建初始冷启动。这个过程使我们能够将非正式和正式的数学推理集成到一个统一的模型中。
🔸生成的模型 DeepSeek-Prover-V2-671B 在神经定理证明中实现了最先进的性能,MiniF2F 检验达到 88.9% 的传递率,并在 PutnamBench 的 658 个问题中解决了 49 个。除了标准基准之外,我们还引入了 ProverBench,它是 325 个形式化问题的集合,以丰富我们的评估,包括来自最近 AIME 竞赛的 15 个选定问题(24-25 年)。对这 15 个 AIME 问题的进一步评估表明该模型成功地解决了其中 6 个。相比之下,DeepSeek-V3 使用多数投票解决了这些问题中的 8 个,突出了大型语言模型中正式和非正式数学推理之间的差距大大缩小了。项目在https://github.com/deepseek-ai/DeepSeek-Prover-V2
🛎️文章简介
🔸研究问题:如何将非正式数学推理能力与正式定理证明系统相结合,以提高自动定理证明的效果?
🔸主要贡献:论文提出了一种新的模型DeepSeek-Prover-V2,通过递归子目标分解和强化学习方法,显著提升了形式化数学推理的能力。
📝重点思路
🔸证明思路:首先使用DeepSeek-V3生成高层次的证明草图,将整个证明分解为一系列较小的子目标,然后将每个子目标转化为正式的Lean证明步骤。
🔸训练算法:采用了Group Relative Policy Optimization (GRPO)算法来优化模型的推理能力。
🔸训练数据:引入了一种基于子目标分解的递归证明搜索策略,以提升训练信号的密度和有效性。
🔸训练步骤:引入课程学习方法,通过逐步增加训练任务的难度,优化模型的学习过程。
🔸模型迭代:在每次训练迭代中,利用当前最佳的证明策略生成未解决的证明尝试,并将成功案例纳入训练数据集中。
🔎分析总结
🔸DeepSeek-Prover-V2在多个基准测试中表现优异,特别是在MiniF2F基准上,展现出对高中竞赛及本科数学问题的强大推理能力。
🔸在AIME竞赛问题中,DeepSeek-Prover-V2成功解决了多个挑战性问题,展示了其在高级数学推理中的潜力。
🔸模型在处理复杂定理时,通过递归分解子目标的方法,能够有效地减少计算负担并提高证明的准确性。
🔸通过结合非正式推理和正式验证过程,该模型在形式化证明的准确性和效率上都有所提升。
💡个人观点
论文的创新点在于将非形式化的数学推理能力与严格的形式化证明过程结合在一起,构建了一个统一的推理框架。