交大:基于LLM的agent工具使用评估基准GTA

在这里插入图片描述

📖标题:GTA: A Benchmark for General Tool Agents
🌐来源:arXiv, 2407.08713

🌟摘要

🔸在开发通用代理时,重点放在将大型语言模型(LLM)与各种工具集成上。这对LLM的工具使用能力提出了挑战。然而,现有的工具使用评估和现实世界场景之间存在明显的差距。目前的评估通常使用AI生成的查询、单步任务、虚拟工具和纯文本交互,无法有效地揭示代理在现实世界中的问题解决能力。
🔸为了解决这个问题,我们提出了GTA,这是通用工具代理的基准,具有三个主要方面:(i)真实用户查询:具有简单现实世界目标但隐含工具使用的人工编写查询,要求LLM推理合适的工具并计划解决方案步骤。(ii)实际部署的工具:一个评估平台,配备了感知、操作、逻辑和创造力类别的工具,用于评估代理人的实际任务执行绩效。(iii)真实的多模式输入:真实的图像文件,如空间场景、网页截图、表格、代码片段和印刷/手写材料,用作查询上下文,与现实世界场景紧密结合。我们设计了229个真实世界的任务和可执行的工具链来评估主流LLM。
🔸我们的研究结果表明,现实世界的用户查询对现有的LLM来说是具有挑战性的,GPT-4完成的任务不到50%&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值