具身智体梦见像素化绵羊?:使用语言引导的世界建模进行具身的决策

23年1月UCI和A2I的论文“Do Embodied Agents Dream of Pixelated Sheep: Embodied Decision Making using Language Guided World Modelling” (发表于ICML‘23)。

用少样本大语言模型(LLM)来假设一个抽象世界模型(AWM),该模型将通过世界经验进行验证,提高RL智体的样本效率。DECKARD智体将LLM引导的探索分两个阶段应用于Minecraft中的项目制作:
(1)Dream阶段,智体用LLM将任务分解为一系列子目标,即假设的AWM;
(2)Wake阶段,其中智体学习每个子目标的模块化策略并验证或校正假设的AWM。

用LLM假设AWM然后基于智体经验去验证AWM的方法,不仅提高了一个数量级的样本效率,而且对LLM中的错误具有鲁棒性并纠正;成功地将LLM中含噪的互联网规模信息与落地于环境动力学的知识相结合。

注:DEKARD=DECision-making for Knowledgable Autonomous Reinforcement-learning Dreamers

如图所示是DEKARD的示意图:

添加图片注释,不超过 140 字(可选)

用OpenAI的Codex模型(code-davinci-002)来预测DECKARD的抽象世界模型(AWM)。用代码注释中的指令去提示模型,其注释指示模型生成一个python字典,其中包含Minecraft项目需求的信息,还提供“钻石镐”和“钻石”的示例条目。

对所有391个Minecraft项目进行迭代,在python字典中生成下一个条目。将目录条目中的数据组织为以下条目属性:

Requires-crafting-table:物品是否需要智体在制作前提供一个制作台
Requires-furnace:物品是否用熔炉熔炼
Required-tool:从环境中收集物品所需要的工具
Recipe:制作该产品的配料和配料数量列表
任何receipt长度为零的项目都是可收集的项目(它在AWM中没有父项)。

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值