📖标题:APE-Bench I: Towards File-level Automated Proof Engineering of Formal Math Libraries
🌐来源:arXiv, 2504.19110
🌟摘要
🔸大型语言模型(LLM)的最新进展在形式定理证明方面显示出了希望,但现有的基准仍然局限于孤立的静态证明任务,无法捕捉到现实世界形式数学库的迭代、工程密集型工作流程。
🔸受软件工程类似进展的启发,我们引入了自动证明工程(APE)的范式,该范式旨在使用LLM自动化证明工程任务,如特征添加、证明重构和错误修复。为了促进这一方向的研究,我们提出了APE Bench I,这是第一个基于Mathlib4真实世界提交历史构建的现实基准,其特征是用自然语言描述的各种文件级任务,并通过结合精益编译器和LLM-as-a-Jjudge的混合方法进行验证。我们进一步开发了Eleanstic,这是一个可扩展的并行验证基础设施,针对跨多个版本的Mathlib的证明检查进行了优化。
🔸最先进的LLM的实证结果表明,在本地化编辑方面表现出色,但在处理复杂的证明工程方面却有很大的下降。这项工作为开发证明工程中的代理工作流奠定了基础,未来的基准将针对多文件协调、项目规模验证和能够规划、编辑和修复正式库的自主代理。
🛎️文章简介
🔸研究问题:在形式数学库的维护和演进中,如何有效评估和增强自动化证明工程的能力?
🔸主要贡献:论文提出了APE-Bench I,这是第一个基于真实开发工作流的大规模文件级证明工程基准,旨在评估语言模型在实际证明工程任务中的性能。
📝重点思路
🔸引入自动化证明工程(APE)范式,将形式数学视为与真实开发和维护工作流对齐的指令驱动代码编辑。
🔸通过挖掘Mathlib4的真实提交记录,构建了10,928个结构上连贯的文件级任务,以反映真实的编辑需求。
🔸设计了一个两阶段的评估协议,结合Lean编译器的语法验证和基于LLM的语义评估,以确保生成补丁的有效性和符合指令意图。
🔸提出了DiffRepair机制,对模型生成的补丁进行结构修复,以提高补丁的应用成功率。
🔎分析总结
🔸大多数当前模型在小规模任务上表现良好,但在处理较大和结构复杂的编辑时,性能显著下降。
🔸尽管o3-mini在所有模型中表现最佳,但仍然只有三分之一的任务成功,反映出当前模型与实际证明工程要求之间的显著差距。
🔸通过分析语义失败类型,论文揭示了模型在结构规划和任务解释中的常见问题,为未来研究提供了指导。
🔸整个基准构建流程是全自动的,能够随着Mathlib4版本的更新而持续演进,确保基准的时效性。
💡个人观点
论文的创新点在于引入了一个系统化的、以指令为驱动的评估框架,使得形式数学的自动化证明工程能够在更复杂的实际场景中得到有效评估。
🧩附录