📖标题:CORE-Bench: Fostering the Credibility of Published Research Through a Computational Reproducibility Agent Benchmark
🌐来源:arXiv, 2409.11363
摘要
🔸人工智能代理有可能帮助用户完成各种重要任务,包括进行科学研究。为了促进有用代理的开发,我们需要具有挑战性的基准,但更重要的是,这些基准直接对应于感兴趣的现实世界任务。
🔸本文介绍了这样一个基准,旨在衡量人工智能代理在解决科学研究中一个关键但令人惊讶的挑战性方面的准确性:计算再现性。这项任务是科学过程的基础,涉及使用提供的代码和数据复制研究结果。我们介绍了CORE Bench(计算再现性代理基准),这是一个由270个任务组成的基准,基于三个学科(计算机科学、社会科学和医学)的90篇科学论文。CORE Bench中的任务由三个难度级别组成,包括纯语言和视觉语言任务。我们提供了一个评估系统,以快速和可并行的方式衡量代理的准确性,与顺序实现相比,每次运行节省了数天的评估时间。
🔸我们评估了两个基线代理:通用AutoGPT和一个名为CORE代理的任务特定代理。我们使用两种底层语言模型测试了这两种变体:GPT-4o和GPT-4o-mini。最好的代理在最困难的任务级别上实现了21%的准确率,这表明在自动化日常科学任务方面还有很大的改进空间。拥有能够复制现有工作的代理是构建能够进行新研究并验证和改进其他研究代理性能的代理的必要步骤。我们希望CORE Bench能够改善可重复性状态,并促进未来研究试剂的发展。
🛎️文章简介
🔸研究问题:如何评估和提升计算可重复性代理(agent)在自动化研究重现过程中的能力。
🔸主要贡献:论文提出了CORE-Bench基准,用于评估代理在计算可重复性任务中的表现,并展示了如何通过特定任务的调整提高代理的准确性。
📝重点思路
🔺相关工作
🔸计算可重复性:使用作者提供的数据和代码再现科学研究结果的能力,是科学研究的基础。
🔸复现难点:即使研究附带代码和数据,由于多种原因,重现研究结果也可能具有挑战性,包括机器架构和代码版本等原因。
🔸代码模型:语言模型在编码任务方面取得了重大进展,解决了HumanEval等基准测试中的大多数任务,但现实世界的编码挑战仍然很困难。
🔺论文方案
🔸创建CORE-Bench基准:从CodeOcean中选取符合特定标准的胶囊(capsules),这些胶囊来自不同学科和编程语言,确保能代表多样且可行的计算可重复性任务子集。
🔸任务难度分级:将任务分为简单、中等和困难三个难度级别,分别对应不同的重现信息提供情况。
🔸代理评估:评估了两个代理(AutoGPT和CORE-Agent)在CORE-Bench上的表现,使用GPT-4o和GPT-4o-mini两种语言模型进行实验。
🔸结果分析:通过详细的实验结果分析,评估代理在不同任务难度下的表现,并探讨了模型强度、任务特定调整和成本效率之间的关系。
🔎分析总结
🔸任务特定调整的必要性:通过任务特定的调整,代理的准确性显著提高,尤其是在较弱的模型上。
🔸模型强度的影响:更强的模型(如GPT-4o)在相同成本限制下表现更好,尽管其每令牌成本更高。
🔸任务难度的影响:代理在简单任务上的表现最好,而在困难任务上的表现最差,表明在复杂任务上仍有很大的改进空间。
🔸模态难度差异:视觉问题(如分析图表)比文本问题更难,因为它们通常需要从多个输出文件中提取相关信息。
🔸代理的可靠性:通过passk指标评估代理的可靠性,发现代理在解决相同任务时的表现存在不一致性,表明提高代理的可靠性是一个挑战。
💡个人观点
论文的核心是提出了评估代理计算可重复性的基准,并给出了优化的思路。
附录