北大:LLM奥数基准Omni-MATH

在这里插入图片描述

📖标题:Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models
🌐来源:arXiv, 2410.07985

摘要

🔸大型语言模型(LLM)的最新进展导致了数学推理能力的重大突破。然而,像GSM8K或MATH这样的现有基准现在正在以高精度解决(例如,OpenAI o1在MATH数据集上达到了94.8%),这表明它们不足以真正挑战这些模型。
🔸为了弥合这一差距,我们提出了一个全面而具有挑战性的基准,专门用于评估LLMs在奥林匹克水平上的数学推理能力。与现有的奥林匹克相关基准不同,我们的数据集只关注数学,包括4428个具有严格人工注释的竞赛级问题。这些问题被细致地分为33个子领域,涵盖了10多个不同的难度级别,从而能够对奥林匹克数学推理中的模型性能进行全面评估。此外,我们基于这一基准进行了深入分析。
🔸我们的实验结果表明,即使是最先进的模型OpenAI o1-mini和OpenAI o1 preview,也难以解决具有高度挑战性的奥林匹克级问题,准确率分别为60.54%和52.55%,突显了奥林匹克级数学推理的重大挑战。

🛎️文章简介

🔸研究问题:如何评估和提升大语言模型(LLM)在奥林匹克级别数学问题上的表现?
🔸主要贡献:论文提出了一个名为Omni-MATH的通用奥林匹克级别数学基准,用于评估和提升LLM的数学推理能力。

📝重点思路

🔺相关工作

🔸数学基准:GSM8K和MATH是数学推理领域的关键基准,前者基于实际应用的数学问题,后者包括大学级别和入门级竞赛级别的数学问题,更具挑战性的还包括OCWCourses、SAT等,另一条研究路线采用形式语言来衡量模型的定理证明能力。
🔸奥林匹克级别基准:AlphaGeometry提供了奥林匹克级别的几何问题、CHAMP提供了高中竞赛级别的数学问题等。

🔺论文方案

🔸数据收集:从竞赛页面、AoPS Wiki和AoPS论坛等多个来源收集数据,并通过筛选和注释确保数据的质量和一致性。
🔸数据分类:使用GPT-4o对问题进行分类,将问题分为不同的数学领域,以评估模型在不同数学领域的表现。
🔸实验设置:通过操纵输入中的示例,观察模型性能的变化,评估数据选择对最终性能的影响。
🔸难度一致性分析:分析模型在不同难度问题上的表现一致性,使用ARIMA建模来简化趋势强度的实现。
🔸数据泄露检测:通过测试模型预测的5-grams是否与真实5-grams相同,来检查数据是否被污染。

🔎分析总结

🔸数据泄露影响:大多数模型在Omni-MATH基准上表现出一定的数据泄露,但数据泄露对结论的影响较小,Omni-MATH仍然对模型构成显著挑战。
🔸难度分布影响:模型在“污染且正确”样本中的平均难度低于所有污染样本,表明难度级别在数据泄露情况下仍然对模型性能有显著影响。
🔸模型性能趋势:随着问题难度的增加,模型性能呈现一致的下降趋势,但在某些类别中,由于样本数量极少,结果波动较大。
🔸领域分类重要性:奥数竞赛涵盖广泛且复杂的主题,不同领域的数据对模型泛化能力提出了更大的挑战,因此对数据进行领域分类是必要的。

💡个人观点

论文专注于纯文本的奥数推理,论证了问题难度的影响。

附录

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值