一个通才智体

来自22年的一篇谷歌deep mind论文“A Generalist Agent“。

受到大规模语言建模进步的启发,采用类似的方法构建文本输出域之外的单一通才智体。智体,称之为Gato,作为一个多模态、多任务、多具身的通才策略。具有相同权重的同一网络可以玩Atari、图像打字幕、聊天、以及用真正的机器人手臂堆积木块等,根据其上下文决定是否要输出文本、关节扭矩、按钮按下或其他token。本报告描述了模型和数据,并记录了Gato的当前功能。

与Gato最密切相关的架构是Decision Transformer(Chen2021b;Reid2022;Zheng2022;Furuta2021)和Trajectory Transformers(Janner2021),这表明了高度通用的类语言模型(LM)架构对各种控制问题的可用性。Gato还是用类LM的体系结构进行控制,但选择了支持多模态、多实施、大规模和通用部署的差异设计。Pix2Seq(Chen2022)也用基于LM的架构进行目标检测。Perceiver IO(Jaegle2021)用专门为超长序列的transformer衍生架构,将任何模态建模为字节序列。这一体系结构和类似的体系结构可用于扩展未来通才模型支持的模态范围。

Gato受到GPT-3(Brown2020)和Gopher(Rae2021)等的启发,突破了通才语言模型的极限;以及最近的Flamingo(Alayrac2022)通才视觉语言模型。(Chowdhery 2022)明确地开发了有540B参数的路径语言模型(PalM),作为数百个文本任务的通才少样本学习者(FSL)。未来的工作应该考虑如何将这些文本功能统一为一个完全通用的智体,也可以在现实世界多样的环境和实施中实时发挥作用。
Gato还从最近多实施连续控制的工作中获得了灵感。论文(Huang2020)用消息传递(message passing)图网络为许多模拟的2D步行者构建一个单独的运动控制器。工作(Kurin2020)表明,尽管没有编码任何形态学的归纳偏差,但在不相容(即多变的实施)控制方面transformer可以优于基于图的方法。论文(Devin 2017)学习一个模块化策略,在模拟2D操纵环境中进行多任务和多机器人迁移。工作(Chen 2018)以机器人硬件的矢量表示为条件,训练了一个通用策略,显示出成功地迁移到模拟的伸展机器人手臂和真实世界的锯木工手臂。

通才智体如图所示:Gato可以用具有相同权重集的单个神经网络在各种环境中感知和处理不同的具身体。Gato接受了604项不同任务的训练,这些任务具有不同的模态、观测和行动规范。

添加图片注释,不超过 140 字(可选)

已经开发了各种早期的通才模型,与Gato一样在高度不同的领域和模式中运行。NPI(Reed&De Freitas2016)训练了一个LSTM(Hochreiter&Schmidhuber1997)来执行各种程序,如对数组进行排序和两个数相加,这样网络就能够推广到比训练中看到的更大的问题实例。(Kaiser 2017)开发了MultiModel,该模型联合训练8种不同的语音、图像和文本处理任务,包括分类、图像字幕和翻译。模态特定编码器用于处理文本、图像、音频和分类数据,而其余的网络参数在任务之间共享。(Schmidhuber 2018)提出“一个适用于所有事物的大网络”,描述了一种对日益通用问题求解器进行增量训练的方法。(Keskar 2019)提出可控的多任务语言模型,可以根据语言域、子域、实体、实体之间关系、时期和任务特定行为等进行指导。

重要的是区分一个单一的多任务网络架构与所有任务具有相同权重的单一神经网络。几种流行的RL智体在如Atari57和DMLab(Espeholt2018;Song2020;Hessel2019)单个结构域内实现了良好的多任务RL结果。然而,在任务之间用相同的策略架构和超参要常见得多,但每个任务的策略参数不同(Mnih2015;Tassa2018)。应用于棋盘游戏的最先进的RL方法也是如此(Schrittwiser2020)。此外,离线RL基准测试(Gulcehre2020;Fu2020)和最近关于控制的大序列神经网络工作,包括decision transformer(Chen2021b;Reid2022;Zheng2022)和Trajectory Transformer(Janner2021)都采用了这种选择。相比之下,在这项工作中,Gato学习了一个在不同任务集中具有相同权重的单个网络。

最近的重要论文提倡通才模型,特别是(Schmidhuber2018)提出了一个包罗万象的大网络,以及(Bommasani2021)的基础模型。然而,据我们所知,还没有报道过一位通才,用大规模transformer网络完成数百个视觉、语言和控制任务。

如图是Gato的训练阶段:来自不同任务和模态的数据被序列化为一个扁平的token序列,由类似于大语言模型的Transformer神经网络进行批量处理和处理。用掩码技术使损失函数仅应用于目标输出,即文本和各种动作。

添加图片注释,不超过 140 字(可选)

“Single-brain”模式与神经科学有着有趣的联系。(Mountcastle 1978)著名地指出,“所有新皮质(neocortical)区域新皮质模块的处理功能在质量上都是相似的。简而言之,运动皮层(cortex)没有本质上的运动,知觉皮层也没有知觉”。Mountcastle发现,无论是与视觉、听觉还是运动控制相关,皮层中的神经元柱结构都表现相似。这引发了我们可能只需要一个算法或模型来构建智能的争论(Hawkins&Blakeslee2004)。

知觉替代为单一模型提供了另一个论据(Bachy-Rita&Kercel2003)。例如,可以为盲人制作触觉视觉辅助设备。摄像头捕捉的信号可以通过舌头上的电极阵列发送到大脑。视觉皮层学会处理和解释这些触觉信号,赋予人某种形式的“视觉”。这表明,无论输入信号的类型如何,同一网络都可以对其进行有效处理。

Gato工作基于深度自回归模型,该模型有着悠久的历史,可以在文本、图像、视频和音频的生成模型中找到。将自回归生成与transformer相结合(Vaswani2017;Devlin2018)已经带来以下领域的巨大影响,如语言建模(Brown2020;Rae2021)、蛋白质重叠(Jumper2021),具有检索能力的对话系统(Nakano2021;Thoppilan2022)、语音识别(Pratap2020)、神经机器翻译(Johnson2019)和其他(Bommasani2021)。最近,研究人员利用语言模型探索了任务分解和执行接地(Huang2022;Ahn2022)。

论文(Li2022a)构建了一个控制体系结构,由序列tokenizer、预训练的语言模型和特定任务的前馈网络组成。他们将其应用于VirtualHome和BabyAI任务,并发现预训练的语言模型可以提高对新任务的泛化能力。同样,(Parisi2022)证明,用自监督学习预训练的视觉模型,特别是事物分割和动量对比(crop segmentations & momentum contrast),可以有效地纳入控制策略(He2020)。

将Gato 作为控制策略运行如图所示:Gato 用一系列交错的tokenized观测、分隔符token和先前采样的动作,以标准自回归方式生成下一个操作。新操作将应用于环境 - 此图的游戏机,将获得一组新的观察结果,并重复该过程。

添加图片注释,不超过 140 字(可选)

如前所述,在Atari游戏的迁移很有挑战性。(Rusu2016)研究了国内选定的Atari游戏之间的迁移。他们发现,Atari是一个很难迁移的领域,因为不同游戏在视觉、控制和策略方面存在明显差异。(Kanervisto 2020)讨论了将行为克隆应用于Atari等电子游戏时进一步出现的困难。
最近人们对数据驱动机器人技术产生了极大的兴趣(Cabi2019;Chen2021a)。然而,(Bommasani 2021)指出,在机器人技术中,“关键的障碍是收集正确的数据。与语言和视觉数据不同,机器人技术数据既不丰富,也不能代表足够多样化的实施、任务和环境”。此外,每次更新机器人实验室的硬件时,都需要收集新数据并进行再训练。这正是需要一个通才智体的原因,它可以适应新的实施,并在很少的数据下学习新任务。

当存在困惑变量时,用自回归模型生成动作可能会导致因果“自欺”偏差(Ortega2021)。例如,当多个任务共享相似的观察和操作规范时,采样动作可以调节模型以解决错误的任务。在不明确的任务中使用提示(prompt)工程,将Gato模型用成功的演示调节。这可以屏蔽困惑变量,减少自欺。这项工作没有探索的另一个解决方案是使用反事实(counterfactual)教学,即用即时专家反馈在线地训练模型。

  • 19
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值