DeepSeek开源递归定理证明模型:DeepSeek-Prover-V2-671B

DeepSeek-Prover-V2-671B 开源详情

一、模型介绍

DeepSeek-Prover-V2 是一款专为 Lean 4 正式定理证明而设计的开源大语言模型。其初始数据通过 DeepSeek-V3 驱动的递归定理证明流程收集,借助 DeepSeek-V3 将复杂问题分解为多个子目标,将已解决子目标的证明整合为一种思维链过程,结合 DeepSeek-V3 的逐步推理,为强化学习创建初始冷启动。

二、模型开发过程

(一)构造冷启动数据集

开发团队利用 DeepSeek-V3 创建了一个简单的递归定理证明流程。DeepSeek-V3 被用来将定理分解为高级别的证明草稿,并同时在 Lean 4 中形式化这些证明步骤,从而产生一系列子目标。

对于每个子目标的证明搜索,使用较小的 7B 模型来处理,以减轻计算负担。当一个难题被分解并解决后,将完整的逐步形式证明与 DeepSeek-V3 的思维链相结合,形成冷启动推理数据。

(二)强化学习阶段

团队挑选了一组 7B 定理证明模型无法端到端解决的难题,但这些难题的所有分解子目标都已成功解决。通过组合所有子目标的证明,构建出原始问题的完整形式证明,并将其附加到 DeepSeek-V3 的思维链中,从而在非正式推理和后续形式化之间形成连贯的整合。

在合成冷启动数据上对证明器模型进行微调后,进行强化学习阶段,以进一步提升其在非正式推理与形式证明构建之间架桥的能力。遵循推理模型的标准训练目标,主要使用正确或错误的二元反馈作为奖励监督形式。

三、ProverBench 基准测试

ProverBench 是一个包含 325 个问题的基准数据集,其中 15 个问题是最近 AIME 竞赛(AIME 24 和 25)中的数论和代数问题的形式化版本,提供真实的高中竞赛级挑战。剩下的 310 个问题来自精选的教科书示例和教育教程,涵盖了从高中竞赛问题到本科数学的多样性。

具体领域及问题数量如下:

  • AIME 24&25:15 个问题

  • 数论:40 个问题

  • 初等代数:30 个问题

  • 线性代数:50 个问题

  • 抽象代数:40 个问题

  • 微积分:90 个问题

  • 实分析:30 个问题

  • 复分析:10 个问题

  • 泛函分析:10 个问题

  • 概率论:10 个问题

四、模型下载与快速上手

DeepSeek-Prover-V2 提供两种模型尺寸:7B 和 671B 参数。DeepSeek-Prover-V2-671B 在 DeepSeek-V3-Base 的基础上进行训练,DeepSeek-ProverV2-7B 基于 DeepSeek-Prover-V1.5-Base 构建,并具有扩展到最多 32K 令牌的上下文长度。

文章还给出了使用 Huggingface 的 Transformers 进行模型推理的基本示例。

五、核心技术创新

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值