字节：LLM自动化证明工程基准

最新推荐文章于 2025-05-05 14:07:50 发布

大模型任我行

最新推荐文章于 2025-05-05 14:07:50 发布

阅读量888

点赞数 16

分类专栏：大模型-模型评估文章标签：人工智能自然语言处理语言模型论文笔记

本文链接：https://blog.csdn.net/weixin_46739757/article/details/147672502

版权

大模型-模型评估专栏收录该内容

115 篇文章

订阅专栏

在这里插入图片描述

📖标题：APE-Bench I: Towards File-level Automated Proof Engineering of Formal Math Libraries
🌐来源：arXiv, 2504.19110

🌟摘要

🔸大型语言模型（LLM）的最新进展在形式定理证明方面显示出了希望，但现有的基准仍然局限于孤立的静态证明任务，无法捕捉到现实世界形式数学库的迭代、工程密集型工作流程。
🔸受软件工程类似进展的启发，我们引入了自动证明工程（APE）的范式，该范式旨在使用LLM自动化证明工程任务，如特征添加、证明重构和错误修复。为了促进这一方向的研究，我们提出了APE Bench I，这是第一个基于Mathlib4真实世界提交历史构建的现实基准，其特征是用自然语言描述的各种文件级任务，并通过结合精益编译器和LLM-as-a-Jjudge的混合方法进行验证。我们进一步开发了Eleanstic，这是一个可扩展的并行验证基础设施，针对跨多个版本的Mathlib的证明检查进行了优化。
🔸最先进的LLM的实证结果表明，在本地化编辑方面表现出色，但在处理复杂的证明工程方面却有很大的下降。这项工作为开发证明工程中的代理工作流奠定了基础，未来的基准将针对多文件协调、项目规模验证和能够规划、编辑和修复正式库的自主代理。

🛎️文章简介

🔸研究问题：在形式数学库的维护和演进中，如何有效评估和增强自动化证明工程的能力？
🔸主要贡献：论文提出了APE-Bench I，这是第一个基于真实开发工作流的大规模文件级证明工程基准，旨在评估语言模型在实际证明工程任务中的性能。

📝重点思路

🔸引入自动化证明工程（APE）范式，将形式数学视为与真实开发和维护工作流对齐的指令驱动代码编辑。
🔸通过挖掘Mathlib4的真实提交记录，构建了10,928个结构上连贯的文件级任务，以反映真实的编辑需求。
🔸设计了一个两阶段的评估协议，结合Lean编译器的语法验证和基于LLM的语义评估，以确保生成补丁的有效性和符合指令意图。
🔸提出了DiffRepair机制，对模型生成的补丁进行结构修复，以提高补丁的应用成功率。

🔎分析总结

🔸大多数当前模型在小规模任务上表现良好，但在处理较大和结构复杂的编辑时，性能显著下降。
🔸尽管o3-mini在所有模型中表现最佳，但仍然只有三分之一的任务成功，反映出当前模型与实际证明工程要求之间的显著差距。
🔸通过分析语义失败类型，论文揭示了模型在结构规划和任务解释中的常见问题，为未来研究提供了指导。
🔸整个基准构建流程是全自动的，能够随着Mathlib4版本的更新而持续演进，确保基准的时效性。