具身智体梦见像素化绵羊？：使用语言引导的世界建模进行具身的决策_do embodied agents dream of pixelated sheep?: embo-CSDN博客

本文链接：https://blog.csdn.net/yorkhunter/article/details/139537746

23年1月UCI和A2I的论文“Do Embodied Agents Dream of Pixelated Sheep: Embodied Decision Making using Language Guided World Modelling” （发表于ICML‘23）。

用少样本大语言模型（LLM）来假设一个抽象世界模型（AWM），该模型将通过世界经验进行验证，提高RL智体的样本效率。DECKARD智体将LLM引导的探索分两个阶段应用于Minecraft中的项目制作：
（1）Dream阶段，智体用LLM将任务分解为一系列子目标，即假设的AWM；
（2）Wake阶段，其中智体学习每个子目标的模块化策略并验证或校正假设的AWM。

用LLM假设AWM然后基于智体经验去验证AWM的方法，不仅提高了一个数量级的样本效率，而且对LLM中的错误具有鲁棒性并纠正；成功地将LLM中含噪的互联网规模信息与落地于环境动力学的知识相结合。

注：DEKARD=DECision-making for Knowledgable Autonomous Reinforcement-learning Dreamers

如图所示是DEKARD的示意图：

添加图片注释，不超过 140 字（可选）

用OpenAI的Codex模型（code-davinci-002）来预测DECKARD的抽象世界模型（AWM）。用代码注释中的指令去提示模型，其注释指示模型生成一个python字典，其中包含Minecraft项目需求的信息，还提供“钻石镐”和“钻石”的示例条目。

对所有391个Minecraft项目进行迭代，在python字典中生成下一个条目。将目录条目中的数据组织为以下条目属性：

Requires-crafting-table：物品是否需要智体在制作前提供一个制作台
Requires-furnace：物品是否用熔炉熔炼
Required-tool：从环境中收集物品所需要的工具
Recipe：制作该产品的配料和配料数量列表
任何receipt长度为零的项目都是可收集的项目（它在AWM中没有父项）。