23年1月UCI和A2I的论文“Do Embodied Agents Dream of Pixelated Sheep: Embodied Decision Making using Language Guided World Modelling” (发表于ICML‘23)。
用少样本大语言模型(LLM)来假设一个抽象世界模型(AWM),该模型将通过世界经验进行验证,提高RL智体的样本效率。DECKARD智体将LLM引导的探索分两个阶段应用于Minecraft中的项目制作:
(1)Dream阶段,智体用LLM将任务分解为一系列子目标,即假设的AWM;
(2)Wake阶段,其中智体学习每个子目标的模块化策略并验证或校正假设的AWM。
用LLM假设AWM然后基于智体经验去验证AWM的方法,不仅提高了一个数量级的样本效率,而且对LLM中的错误具有鲁棒性并纠正;成功地将LLM中含噪的互联网规模信息与落地于环境动力学的知识相结合。
注:DEKARD=DECision-making for Knowledgable Autonomous Reinforcement-learning Dreamers
如图所示是DEKARD的示意图:
用OpenAI的Codex模型(code-davinci-002)来预测DECKARD的抽象世界模型(AWM)。用代码注释中的指令去提示模型,其注释指示模型生成一个python字典,其中包含Minecraft项目需求的信息,还提供“钻石镐”和“钻石”的示例条目。
对所有391个Minecraft项目进行迭代,在python字典中生成下一个条目。将目录条目中的数据组织为以下条目属性:
Requires-crafting-table:物品是否需要智体在制作前提供一个制作台
Requires-furnace:物品是否用熔炉熔炼
Required-tool:从环境中收集物品所需要的工具
Recipe:制作该产品的配料和配料数量列表
任何receipt长度为零的项目都是可收集的项目(它在AWM中没有父项)。