📖标题:CORE-Bench: Fostering the Credibility of Published Research Through a Computational Reproducibility Agent Benchmark
🌐来源:arXiv, 2409.11363
摘要
🔸人工智能代理有可能帮助用户完成各种重要任务,包括进行科学研究。为了促进有用代理的开发,我们需要具有挑战性的基准,但更重要的是,这些基准直接对应于感兴趣的现实世界任务。
🔸本文介绍了这样一个基准,旨在衡量人工智能代理在解决科学研究中一个关键但令人惊讶的挑战性方面的准确性:计算再现性。这项任务是科学过程的基础,涉及使用提供的代码和数据复制研究结果。我们介绍了CORE Bench(计算再现性代理基准),这是一个由270个任务组成的基准,基于三个学科(计算机科学、社会科学和医学)的90篇科学论文。CORE Bench中的任务由三个难度级别组成,包括纯语言和视觉语言任务。我们提供了一个评估系统,以快速和可并行的方式衡量代理的准确性,与顺序实现相比,每次运行节省了数天的评估时间。
🔸我们评估了两个基线代理:通用AutoGPT和一个名为CORE代理的任务特定代理。我们使用两种底层语言模型测试了这两种变体:GPT-4o和GPT-4o-mini。最好的代理在最困难的任