决策基础模型:问题,方法和机会

23年3月谷歌牵头几所大学撰写的综述“Foundation Models for Decision Making: Problems, Methods, and Opportunities“,针对的是AI认知而不是感知的能力。

摘要:在各种数据大规模预训练的基础模型,在广泛的视觉和语言任务中表现出非凡的能力。当此类模型部署在实际环境中时,不可避免地与其他实体和智体进行交互。例如,语言模型通常用于通过对话与人类互动,视觉感知模型用于自主导航周围街道。为了应对这些发展,正在出现一种新范式,训练基础模型与其他智体交互,执行长期推理。这些范式利用了在多模态、多任务和通才(generalist)交互方面挑选的大规模数据集。基础模型和决策的交叉领域研究为创建新的强大系统带来了希望,这些系统可以在对话、自动驾驶、医疗保健、教育和机器人等各种应用中有效作用。该文研究用于决策的基础模型范围,并为理解问题空间和探索新研究方向提供了概念工具和技术背景。回顾了最近通过提示、条件生成建模、规划、最优控制和强化学习等多种方法在实际决策应用中的基础建模方法,并讨论了该领域常见的挑战和开放问题。

添加图片注释,不超过 140 字(可选)

使用基础模型进行决策与传统离线强化学习(有或无在线微调)的不同之处在于,后者侧重于从特定任务的强化学习(RL)数据集DRL(即具有特定任务状态、动作和奖励的数据集)学习RL算法,而前者侧重于对不同数据(例如来自视觉和语言领域的数据)的自监督学习,然后是特定任务的适配。

如图展示了基础模型可以与外部实体(例如,人类、工具以及模拟和物理世界)交互的其他示例。

添加图片注释,不超过 140 字(可选)

基础模型可以作为行为(即动作)或底层世界模型(即环境动力学)的条件生成模型。生成模型大多应用于文本或图像数据。另一方面,决策与特定任务的交互式数据有关,其是区分状态、动作和奖励标签的DRL。如何采用不同的生成模型来对智体行为和环境动力学进行建模,如图所示。

添加图片注释,不超过 140 字(可选)

行为生成建模的一个关键优势在于增大;尽管不同的任务具有不同的观察结果和奖励,但任务之间往往共享有意义的行为(例如,“向左移动”在导航、游戏和机器人操作任务中具有相似的含义)。受Transformer缩放成功的启发,已经为模拟任务[Shafiullah2022]、40多个Atari游戏[Lee2022],700多个真实世界的机器人任务[Brohan2022]和600多个具有不同模态、观察和动作规范的不同任务[Reed2022]开发了全才智体的不同行为序列。这使得多面手智体能够玩视频游戏、打字幕到图像、聊天、执行机器人任务,明显优于接受过单一任务训练的专业智体。这些工作还证明了缩放模型参数和训练任务数量的好处。

将多个特定任务的数据集DRL组合成大型多任务数据集是增大行为建模的一种方式,但利用互联网规模的文本和视频数据D集合是有效增大的另一种可行方式。互联网规模的文本和视频数据数量丰富,但与DRL相比,通常是有限的动作注释。尽管如此,以前的工作仍然包含了这样的数据集。例如,Gato[Reed2022]通过通用token化来解决这个问题,这样可以用大序列模型来联合训练有动作和无动作的数据。UniPi [Du2023b]直接学习预测机器人视频,并训练单独的逆模型从生成的视频中推断动作。应用逆动力学模型标记大型视频数据(例如,来自YouTube)也适用于其他领域,如自动驾驶车[Zhang2022a]和视频游戏[Baker2022;Venuto2022]。

假设访问大规模行为数据集的另一种方法是,在线访问大规模在线游戏模拟器,这使得“大规模”在线RL模型能够在DoTA[Berner2019]和StarCraft[Vinyals2019]等游戏中使用策略梯度或行动者-评论者(AC)算法进行训练。类似地,域随机化[Tobin2017]已被提议对不同生成环境的在线访问,帮助弥合机器人技术中模拟-到-真实的差距。然而,这些大规模的在线训练方案无法利用基础模型。未来工作的一个重要方向是探索如何在大规模的在线环境中类似地利用和学习生成模型。

一方面,基础模型可以从广泛的图像和文本数据D中提取表示,从而实现向基于视觉和语言的决策任务做即插即用式知识迁移。另一方面,基础模型也可以用于通过特定任务的目标和交互式数据DRL来支持特定任务的表示学习。如图是不同表示学习目标的说明,如基于模型的表示[Nachum&Yang 2021]、时间对比学习[Oord2018]、掩码自动编码器[Devlin2018]和离线RL[Kumar2022],做序贯决策。

添加图片注释,不超过 140 字(可选)

基础模型可以表征决策过程(M)的不同组成部分,例如智体行为(𝐴)、世界动力学(T)、任务说明符(R)和状态(𝑆)-动作表示。一种特殊情况,预训练的大语言模型可以充当智体或环境。一方面,将语言模型视为智体,可以从人类、工具或现实世界产生的环境反馈中学习,另一方面,可以在序贯决策框架下考虑信息检索和网络导航等新应用。语言模型也可以被认为是以文本作为输入并产生文本输出的计算环境,有效地支持与外部提示的交互。

  • 10
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值