📖标题:Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models
🌐来源:arXiv, 2503.21380
🌟摘要
🔸近年来,大型推理模型的快速发展导致评估数学推理的现有基准饱和,突显了对更具挑战性和更严格的评估框架的迫切需求。
🔸为了解决这一差距,我们引入了Olympic Math,这是一个新的奥林匹克级数学基准,旨在严格测试LLM的复杂推理能力。Olympimath有200个精心策划的问题,每个问题都经过人工验证,并有中英文版本。这些问题被系统地分为两个不同的难度层次:(1)建立数学推理评估基线的AIME级问题(简单),以及(2)旨在突破当前最先进模型边界的更具挑战性的问题(困难)。在我们的基准测试中,这些问题涵盖了四个核心数学领域,每个领域都包括一个可验证的数值解,以实现客观、基于规则的评估。
🔸实证结果突显了OlymMATH提出的重大挑战,包括DeepSeek-R1和OpenAI的o3 mini在内的最先进模型在硬子集上的准确性明显有限。此外,该基准有助于对数学推理能力进行全面的双语评估,这是主流数学推理基准中尚未解决的一个关键维度。我们在STILL项目中发布了Olympith基准测试:https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.
🛎️文章简介
🔸研究问题:如何评估大语言模型(LLM)在复杂数学推理方面的能力?
🔸主要贡献:论文提出了OlymMATH,一个经过严格验证的双语奥林匹克水平数学基准,旨在有效评估LLM的数学推理能力。
📝重点思路
🔸设计了OlymMATH数据集,构建了200个高质量的数学问题,涵盖代数、几何、数论和组合数学四个领域,分为简单(OlymMATH-EASY)和困难(OlymMATH-HARD)两个难度级别。
🔸所有问题均为手动采集自印刷出版物,确保问题的质量和独创性,并经过专家验证。
🔸采用与现有MATH数据集相兼容的格式,便于在现有评估管道中使用。
🔸基准数据集提供英文和中文的平行版本,以便进行多语言评估。
🔸采用严格的实验方法评估多种最先进的语言模型的表现,包括通过多次采样和一致性投票来计算准确率。
🔎分析总结
🔸实验结果显示,即使是最先进的模型,如DeepSeek-R1和OpenAI的o3-mini,在OlymMATH-EN-HARD子集上的准确率也仅为21.2%和30.3%,表明奥林匹克级数学问题对当前模型仍然是重大挑战。
🔸通过多语言比较,发现模型在英语问题上的表现普遍优于中文问题,突显了多语言评估的重要性。
🔸进行案例研究显示,模型在某些问题上依赖于启发式“猜测”策略而非严谨的推理,强调了过程级评估的重要性。
🔸论文还指出,现有基准不足以有效区分模型的推理能力,强调了新的、更具挑战性的基准的必要性。
💡个人观点
论文专注于奥林匹克水平的数学问题,为评估LLM的数学推理提供了更具挑战性的标准,不知道和北大的奥数基准Omni-MATH有什么不同。
🧩附录