📖标题:GTA: A Benchmark for General Tool Agents
🌐来源:arXiv, 2407.08713
🌟摘要
🔸在开发通用代理时,重点放在将大型语言模型(LLM)与各种工具集成上。这对LLM的工具使用能力提出了挑战。然而,现有的工具使用评估和现实世界场景之间存在明显的差距。目前的评估通常使用AI生成的查询、单步任务、虚拟工具和纯文本交互,无法有效地揭示代理在现实世界中的问题解决能力。
🔸为了解决这个问题,我们提出了GTA,这是通用工具代理的基准,具有三个主要方面:(i)真实用户查询:具有简单现实世界目标但隐含工具使用的人工编写查询,要求LLM推理合适的工具并计划解决方案步骤。(ii)实际部署的工具:一个评估平台,配备了感知、操作、逻辑和创造力类别的工具,用于评估代理人的实际任务执行绩效。(iii)真实的多模式输入:真实的图像文件,如空间场景、网页截图、表格、代码片段和印刷/手写材料,用作查询上下文,与现实世界场景紧密结合。我们设计了229个真实世界的任务和可执行的工具链来评估主流LLM。
🔸我们的研究结果表明,现实世界的用户查询对现有的LLM来说是具有挑战性的,GPT-4完成的任务不到50%&