📖标题:BattleAgentBench: A Benchmark for Evaluating Cooperation and Competition Capabilities of Language Models in Multi-Agent Systems
🌐来源:arXiv, 2408.15971
摘要
🔸大语言模型(LLM)正变得越来越强大,能够处理复杂的任务,例如,构建单代理和多代理系统。与单智能体相比,多智能体系统对语言模型的协作能力有更高的要求。提出了许多基准来评估他们的协作能力。然而,这些基准缺乏对LLM协作能力的细粒度评估。此外,在现有的工作中忽略了多智能体协作和竞争场景。
🔸为了解决这两个问题,我们提出了一个名为BattleAgentBench的基准,它定义了三个不同难度级别的七个子阶段,并根据单智能体场景导航能力、配对智能体任务执行能力和多智能体协作和竞争能力对语言模型进行了细粒度评估。深入开展4个领先的闭源模型和7个开源模型评估。
🔸实验结果表明,基于api的模型在简单任务上表现出色,而开源小模型在简单任务上表现不佳。对于需要协作和竞争能力的困难任务,尽管基于api的模型已经展示了一些协作能力,但仍有很大的改进空间。BattleAgentBench的代码在https://github.