📖标题:PHYBench: Holistic Evaluation of Physical Perception and Reasoning in Large Language Models
🌐来源:arXiv, 2504.16074
🌟摘要
🔸我们介绍PHYBench,这是一种新颖的高质量基准测试,旨在评估物理环境中大型语言模型(LLM)的推理能力。PHYBench由500个基于现实世界物理场景的精心策划的物理问题组成,旨在评估模型理解和推理现实物理过程的能力。该基准涵盖了力学、电磁学、热力学、光学、现代物理和高级物理,涵盖了从高中练习到本科问题和物理奥林匹克挑战的难度级别。
🔸此外,我们提出了表达式编辑距离(EED)评分,这是一种基于数学表达式之间编辑距离的新型评估指标,它有效地捕捉了模型推理过程和结果中的差异,超越了传统的二进制评分方法。
🔸我们在PHYBench上评估了各种LLM,并将其性能与人类专家进行了比较。我们的研究结果表明,即使是最先进的推理模型也明显落后于人类专家,这突显了它们的局限性以及在复杂的物理推理场景中改进的必要性。我们的基准测试结果和数据集可在以下网址公开获取https://phybench-official.github.io/phybench-demo/ .
🛎️文章简介
🔸研究问题:当前大语言模型(LLM)在复杂物理推理能力评估中存在不足。
🔸主要贡献:论文提出了名为PHYBench的基准,专门设计用于评估模型在物理上下文中的推理能力,并引入了新的评价指标EED Score。
📝重点思路
🔸设计PHYBench基准,包含500个高质量的物理问题,涵盖多个物理领域和不同难度等级。
🔸采用EED Score作为自动化评估指标,通过表达式树和编辑距离来评估模型生成的数学表达式的相似性。
🔸通过与人类物理专家的表现进行比较,建立人类基线,以更好地理解模型的推理能力。
🔸问题的设计聚焦于真实的物理场景,要求模型逐步推理和应用物理法则。
🔎分析总结
🔸论文结果显示,当前最先进的语言模型在PHYBench上的表现明显低于人类专家,最高准确率为36.9%,而人类基线为61.9%。
🔸通过EED Score的使用,能够更细致地评估模型的推理能力,显示出模型在物理感知和推理方面的显著不足。
🔸实验表明,PHYBench能够有效区分模型在不同物理领域中的表现,揭示其在空间推理和复杂过程分析中的能力差异。
🔸论文中对模型的错误分析表明,当前模型在长链推理和符号操作方面仍然面临重大挑战。
💡个人观点
论文的创新点在于提出了一个系统化的、针对物理推理的评估框架PHYBench,填补了现有基准在真实世界物理情境下评估模型能力的空白。
🧩附录