DeepSeek-Prover-V2-671B 开源详情
一、模型介绍
DeepSeek-Prover-V2 是一款专为 Lean 4 正式定理证明而设计的开源大语言模型。其初始数据通过 DeepSeek-V3 驱动的递归定理证明流程收集,借助 DeepSeek-V3 将复杂问题分解为多个子目标,将已解决子目标的证明整合为一种思维链过程,结合 DeepSeek-V3 的逐步推理,为强化学习创建初始冷启动。
二、模型开发过程
(一)构造冷启动数据集
开发团队利用 DeepSeek-V3 创建了一个简单的递归定理证明流程。DeepSeek-V3 被用来将定理分解为高级别的证明草稿,并同时在 Lean 4 中形式化这些证明步骤,从而产生一系列子目标。
对于每个子目标的证明搜索,使用较小的 7B 模型来处理,以减轻计算负担。当一个难题被分解并解决后,将完整的逐步形式证明与 DeepSeek-V3 的思维链相结合,形成冷启动推理数据。
(二)强化学习阶段
团队挑选了一组 7B 定理证明模型无法端到端解决的难题,但这些难题的所有分解子目标都已成功解决。通过组合所有子目标的证明,构建出原始问题的完整形式证明,并将其附加到 DeepSeek-V3 的思维链中,从而在非正式推理和后续形式化之间形成连贯的整合。
在合成冷启动数据上对证明器模型进行微调后,进行强化学习阶段,以进一步提升其在非正式推理与形式证明构建之间架桥的能力。遵循推理模型的标准训练目标,主要使用正确或错误的二元反馈作为奖励监督形式。
三、ProverBench 基准测试
ProverBench 是一个包含 325 个问题的基准数据集,其中 15 个问题是最近 AIME 竞赛(AIME 24 和 25)中的数论和代数问题的形式化版本,提供真实的高中竞赛级挑战。剩下的 310 个问题来自精选的教科书示例和教育教程,涵盖了从高中竞赛问题到本科数学的多样性。
具体领域及问题数量如下:
-
AIME 24&25:15 个问题
-
数论:40 个问题
-
初等代数:30 个问题
-
线性代数:50 个问题
-
抽象代数:40 个问题
-
微积分:90 个问题
-
实分析:30 个问题
-
复分析:10 个问题
-
泛函分析:10 个问题
-
概率论:10 个问题
四、模型下载与快速上手
DeepSeek-Prover-V2 提供两种模型尺寸:7B 和 671B 参数。DeepSeek-Prover-V2-671B 在 DeepSeek-V3-Base 的基础上进行训练,DeepSeek-ProverV2-7B 基于 DeepSeek-Prover-V1.5-Base 构建,并具有扩展到最多 32K 令牌的上下文长度。
文章还给出了使用 Huggingface 的 Transformers 进行模型推理的基本示例。