23年6月清华大学、商汤、中科院、中科大、香港中文大学和上海AI实验室的论文“Ghost in the Minecraft: Generally Capable Agents for Open-World Environments via LLMs with Text-based Knowledge and Memory”。
Ghost in the Minecraft(GITM),该框架将LLMs与基于文本的知识和内存集成在一起,为了在Minecraft中创建通用智体(GCA)。这些智体具备LLM的逻辑和常识能力,可以通过基于文本的交互熟练地在复杂、稀疏的奖励环境中导航。一组结构化的动作,并利用LLM生成行动规划供智体执行。GITM不需要任何GPU进行训练,只要一个32个CPU核心的CPU节点。
项目网站 https://github.com/OpenGVLab/GITM。
如图所示:RL智体试图将复杂的目标直接映射到一系列低级别控制信号,而GITM利用LLM来分解目标,并将其映射到最终控制信号的结构化动作。 LLMs智体利用分层的目标分解,引入LLM分解器、LLM规划器和LLM接口,将任务目标逐步分解为子目标、结构化动作和键盘/鼠标操作。
如图所示:给定一个Minecraft目标,LLM分解器将目标划分为一个子目标树;LLM规划器然后为每个子目标规划一个动作序列;最后,LLM接口执行环境中的每个动作。基于LLM的智体可以利用基于文本的知识和内存进一步增强。