清华:多agent系统中LLM协作评估

在这里插入图片描述

📖标题:BattleAgentBench: A Benchmark for Evaluating Cooperation and Competition Capabilities of Language Models in Multi-Agent Systems
🌐来源:arXiv, 2408.15971

摘要

🔸大语言模型(LLM)正变得越来越强大,能够处理复杂的任务,例如,构建单代理和多代理系统。与单智能体相比,多智能体系统对语言模型的协作能力有更高的要求。提出了许多基准来评估他们的协作能力。然而,这些基准缺乏对LLM协作能力的细粒度评估。此外,在现有的工作中忽略了多智能体协作和竞争场景。
🔸为了解决这两个问题,我们提出了一个名为BattleAgentBench的基准,它定义了三个不同难度级别的七个子阶段,并根据单智能体场景导航能力、配对智能体任务执行能力和多智能体协作和竞争能力对语言模型进行了细粒度评估。深入开展4个领先的闭源模型和7个开源模型评估。
🔸实验结果表明,基于api的模型在简单任务上表现出色,而开源小模型在简单任务上表现不佳。对于需要协作和竞争能力的困难任务,尽管基于api的模型已经展示了一些协作能力,但仍有很大的改进空间。BattleAgentBench的代码在https://github.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值