普林斯顿:LLM的agent在计算可重复性评测

在这里插入图片描述

📖标题:CORE-Bench: Fostering the Credibility of Published Research Through a Computational Reproducibility Agent Benchmark
🌐来源:arXiv, 2409.11363

摘要

🔸人工智能代理有可能帮助用户完成各种重要任务,包括进行科学研究。为了促进有用代理的开发,我们需要具有挑战性的基准,但更重要的是,这些基准直接对应于感兴趣的现实世界任务。
🔸本文介绍了这样一个基准,旨在衡量人工智能代理在解决科学研究中一个关键但令人惊讶的挑战性方面的准确性:计算再现性。这项任务是科学过程的基础,涉及使用提供的代码和数据复制研究结果。我们介绍了CORE Bench(计算再现性代理基准),这是一个由270个任务组成的基准,基于三个学科(计算机科学、社会科学和医学)的90篇科学论文。CORE Bench中的任务由三个难度级别组成,包括纯语言和视觉语言任务。我们提供了一个评估系统,以快速和可并行的方式衡量代理的准确性,与顺序实现相比,每次运行节省了数天的评估时间。
🔸我们评估了两个基线代理:通用AutoGPT和一个名为CORE代理的任务特定代理。我们使用两种底层语言模型测试了这两种变体:GPT-4o和GPT-4o-mini。最好的代理在最困难的任

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值