普林斯顿：LLM的agent在计算可重复性评测

最新推荐文章于 2025-05-20 21:08:02 发布

大模型任我行

最新推荐文章于 2025-05-20 21:08:02 发布

阅读量1k

点赞数 30

分类专栏：大模型-模型评估大模型-Agent 文章标签：人工智能自然语言处理语言模型论文笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46739757/article/details/142630643

版权

在这里插入图片描述

📖标题：CORE-Bench: Fostering the Credibility of Published Research Through a Computational Reproducibility Agent Benchmark
🌐来源：arXiv, 2409.11363

摘要

🔸人工智能代理有可能帮助用户完成各种重要任务，包括进行科学研究。为了促进有用代理的开发，我们需要具有挑战性的基准，但更重要的是，这些基准直接对应于感兴趣的现实世界任务。
🔸本文介绍了这样一个基准，旨在衡量人工智能代理在解决科学研究中一个关键但令人惊讶的挑战性方面的准确性：计算再现性。这项任务是科学过程的基础，涉及使用提供的代码和数据复制研究结果。我们介绍了CORE Bench（计算再现性代理基准），这是一个由270个任务组成的基准，基于三个学科（计算机科学、社会科学和医学）的90篇科学论文。CORE Bench中的任务由三个难度级别组成，包括纯语言和视觉语言任务。我们提供了一个评估系统，以快速和可并行的方式衡量代理的准确性，与顺序实现相比，每次运行节省了数天的评估时间。
🔸我们评估了两个基线代理：通用AutoGPT和一个名为CORE代理的任务特定代理。我们使用两种底层语言模型测试了这两种变体：GPT-4o和GPT-4o-mini。最好的代理在最困难的任

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大模型任我行 随意啦，喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。