MindAgent：新兴游戏交互-CSDN博客

本文链接：https://blog.csdn.net/yorkhunter/article/details/139541201

23年9月UCLA、微软、斯坦福、北京通用AI研究院和北大清华的论文“MindAgent: Emergent Gaming Interaction”。

尽管LLM引入到许多游戏框架，但在构建包括LLM和人类NPC合作的通用多智体协作基础设施方面没有足够的基准。作为基础设施的MindAgent，用于评估游戏交互的规划和协调应急能力。特别是，利用了现有的游戏框架，以i）要求了解多智体系统的协调器，ii）通过未微调的适当指令与人类玩家合作，以及iii）在带有反馈的少量提示下建立上下文学习。此外，CUISINEWORLD，一种游戏场景和相关基准，它可以调度多智体的协作效率，并监督多个智体同时玩游戏。用自动度量的协作得分CoS进行综合评估，计算协作效率。基础设施可以在CUISINEWORLD的定制VR版本中部署到真实世界的游戏场景中，并适用于现有更广泛的Minecraft游戏领域。

如图所示：LLM在多智体规划方面，建立一个基准CUISINEWORLD。MINDAGENT在多智体系统和跨不同领域的人工智能协作基础设施中实现复杂的任务规划。

添加图片注释，不超过 140 字（可选）

CUISINEWORLD的实施大多遵循Overcooked！（一款著名的电子游戏）。跳过低级控制，假设所有智体都可以在任何时候访问所有位置。具体说，从wiki的社区贡献中抓取规则和方法，对其进行简化并进行必要的修改，最终获得了CUISINEWORLD的基本版本，包括10种类型的位置（餐桌、储藏室和8种不同的烹饪工具）、27种类型的食材和33种独特的菜肴。根据菜肴的制作难度（主要是烹饪工具的数量）对其进行分组，并设计了12个游戏级别，这些级别进一步分为4类：入门级、简单级、中级和高级，每个级别3个。方法、菜肴和级别可以很容易地扩展，允许更具挑战性的任务。

CoS协作得分的定义

添加图片注释，不超过 140 字（可选）

如图是MINDAGENT架构。规划技能和工具使用：游戏环境需要不同的规划技能和使用工具来完成任务。它发出相关的游戏信息。该模块还将相关游戏数据转换为结构化文本格式，以便LLM可以对其进行处理。LLM：基础设施的主要工作者负责决策，这是多智体系统的调度器，同时引入探索性提示技术。内存历史：一个记录相关信息的存储实用程序。动作模块：从文本输入中提取动作，并将其转换为特定领域的语言。验证DSLs（Domain-specific languages），使其在执行时不会导致错误。

添加图片注释，不超过 140 字（可选）

超越CuisineWorld，将基础设施集成到广受欢迎的沙盒游戏Minecraft中。如图所示，改编中设计了几个独特的烹饪任务，其中两名游戏智体Alex和Steve负责烹饪各种类型的肉。烹饪完成后，智体需要将这些物品放入一个箱子中。

添加图片注释，不超过 140 字（可选）

Minecraft游戏中为多智体系统定义以下动作：1）goto（智体，location）；2） killMob（智体，mobType）；3） mineBlock（智体，blockType）；4） putFuelFurnace（智体，fuelType），将物品从智体的储藏室放入熔炉底部插槽；5） putItemFurnace（智体，itemType），将智体库存中的物品放入熔炉顶部插槽；6）取出熔炉（智体），从熔炉中取出煮熟的物品；7）放入箱子（智体， itemType ）。

Minecraft的状态空间包含以下内容：1）每个智体附近的块；2）每个智体附近的实体；3）每个智体的库存；4）熔炉内的物品5）柜子内的物品。6）如果涉及人类玩家，则为人类玩家的库存。

将微软Azure语音-到-文本API集成到Minecraft环境中，弥合人类玩家和游戏中（NPC）智体之间的差距。这种实时语音互动丰富了游戏体验，促进了人类玩家和人工智能智体之间更深层次的沉浸感和协同作用。在人类玩家与多智体系统聊天的情况下，提示包含额外的人类指令和人类对话历史组件。

如图是任务图例子：

添加图片注释，不超过 140 字（可选）