谷歌的多模态语言大模型:PaLM-E

23年3月份谷歌(包括柏林工大)发布了一个多模态语言大模型PaLM-E,发表论文即“PaLM-E: An Embodied Multimodal Language Model“。

大型语言模型已被证明可以执行复杂的任务。然而,在现实世界中启用一般推理,例如针对机器人问题,提出了落地实用的挑战。该文提出具身语言模型,将现实世界的连续传感器模式直接纳入语言模型,从而建立单词和感知之间的联系。具身语言模型的输入是交错视觉、连续状态估计和文本输入编码的多模态句子。结合预训练的大型语言模型,端到端地训练这些编码,用于多个具体任务,包括序贯机器人操作规划、视觉问答和字幕。评估表明,PaLM-E是一个单一大型具身多模态模型,可以在多个实例上处理来自各种观察模态的各种具身推理任务,并且进一步表现出正向迁移结果:该模型受益于跨互联网规模语言、视觉和视觉语言领域的各种联合训练。最大型版本 PaLM-E-562B 具有 562B 参数,除了接受机器人任务训练外,还是视觉语言通才,在 OK-VQA 上具有最先进的性能,并随规模的扩大保留了通才语言功能。

相关工作回顾

通用视觉语言建模。在大语言模型(Brown2020;Devlin2018)和视觉模型(Dosovitskiy2020)的基础上,近年来人们对大视觉-语言模型(VLM)的兴趣越来越大(Li2019;Lu2019;Hao2022;Gan2022)。与前辈不同,VLM能够同时理解图像和文本,并可应用于视觉问答(Zhou2020;Zellers2021b)、字幕(Hu2022)、OCR(2021)和目标检测(2021b)等任务。图像集成的方法各不相同。例如,(Alayrac 2022)用一种直接关注单个文本图像的机制来增强预训练的语言模型。相比之下,PaLM-E将图像和文本表示为潜向量的“多模态句子”,在句子的任何部分以灵活的方式处理多个图像。与此工作更密切相关的是Frozen(Tsimpoukeli2021),其中通过冷冻LLM的反向传播(BP)来优化视觉编码器参数(Lu2021)。受这项工作的启发,通过引入另外的输入模式(例如神经场景表示),可以在更广泛的范围内研究,并且该方法在VQAv2基准上的经验优于Frozen超过45%。更重要的是,这个工作证明了PaLM-E不仅适用于感知任务,也适用于具身任务。

动作-输出模型。先前的工作侧重于将视觉和语言输入结合在具体环境中,以实现直接动作预测的目标(Guhur2022;Shridhar2022b/a;Zhang&Cai2021;Silva2021;Jang2022;Nair2022;Lynch2022,Brohan2022)。在这些方法中,VIMA(Jiang2022)探索了类似于PaLM-E的多模式提示。在这些工作中,语言的作用可能最恰当地描述为任务规范。相反,PaLM-E将高级指令生成为文本;在这样做的过程中,该模型能够自然地以自己的预测为条件,并直接利用嵌入在参数里面的世界知识。正如实验所证明的那样,这不仅可以实现具体的推理,还可以回答问题。在输出动作的工作中,可能最相似的是Gato(Reed 2022)中提出的方法,该方法与PaLM-E一样,是一种通才的多具身智体。与Gato相比,这个工作展示了不同任务之间的正向迁移,其中模型受益于多领域的多样联合训练。

具体任务规划中的LLM。已经提出几种方法在具身域中利用LLM。虽然许多工作侧重于理解自然语言目标(Lynch&Sermanet2020;Shridhar2022a;Nair2022;Lynch2022),但很少有人将自然语言作为规划的一种表征——这是本工作的重点。LLM包含大量关于世界的国际知识(Bommasani2021),但如果没有接地设施的支持,生成的规划可能无法执行。一系列研究采用提示(prompting),从LLM生成一系列指令,比如利用LLM生成和一个合格的指令集之间的语义相似性(Huang2022b),结合可见性函数(Ahn2022),视觉反馈(Huang2022c),生成世界模型(Nottingham2023;Zellers2021a),对图(graph)和地图(map)进行规划(Shah2022;Huang2022a)、视觉解释(Wang2033)、图表生成(Liang2021;Singh2020)或信息注入提示(Zeng2018)等。相比之下,PaLM-E被训练为直接生成规划,而不依赖辅助模型来支持接地实施。这又让存在预训练LLM中的丰富语义知识能够直接集成到规划过程中。

除了少数例外,这些工作中使用的LLM参数都是在没有进一步训练的情况下按原样使用的。在LID(Li2022)中,这种约束被放宽,LLM参数被微调,产生用于生成高级指令的规划网络。SL3(Sharma2021)解决了同时微调两个LLM的更具挑战性的任务:一个是生成高级指令的规划网络,另一个是选择行动的低级策略网络。对于PaLM-E,这里工作的兴趣是不同的和互补的:研究一个跨多种模态的多面手、多落地实施的模型。

如图所示:PaLM-E 是一个用于体现推理任务、视觉语言任务和纯粹语言任务的单一通用多模态语言模型。PaLM-E将知识从视觉语言领域转移到具身智能推理中 - 从复杂动态和物理约束的环境中机器人规划,到回答有关可观测世界的问题。PaLM-E运行在多模态句子上,即token序列,其中来自任意模态(例如图像,神经3D表示或状态)的输入与文本token一起插入作为LLM的输入,然后进行端到端的训练。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XXQuEAlI-1721923749356)(https://i-blog.csdnimg.cn/direct/6c4462a7986a4c7a882c34008425385f.png)]

如图所示:PaLM-E-562B可以进行零样本多模态思维链推理,可以在给定图像的情况下讲视觉调节的笑话,并演示一系列与机器人相关的多模态信息功能,包括感知,基于视觉的对话和规划。PaLM-E 还可以零样本学习方式推广到多图像提示,尽管只在单图像提示上进行过训练。PaLM-E还可以在给定文本交错手写数字的图像去执行数学运算。此外,该模型可以对时间标注过的、以自我为中心的视觉进行零样本、问答,类似于 (Zeng2022 )中显示的内容,但都在一个模型中端到端执行。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-d4VMxvyr-1721923749359)(https://i-blog.csdnimg.cn/direct/ff1b577568e54a0a9651cee164d04b61.png)]

如图所示:单个PaLM-E模型指导两个真实机器人的低级策略。图中显示厨房中的长范围移动操作任务,以及用桌面操作机器人的单样本/零样本泛化工作。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-M2RI9az9-1721923749359)(https://i-blog.csdnimg.cn/direct/a0e8f5f124834e65a6c725adfbb22c3f.png)]

几点讨论:

通才与专业模型 – 迁移。展示了几个迁移实例,意味着与单独在不同任务上单独训练的模型相比,同时在不同任务和数据集上训练的 PaLM-E 可以显着提高性能。对“全混合”进行共同训练可实现两倍以上的性能。如果添加 LLM/ViT 预训练和全混合训练,而不是单独的移动操作数据,会看到性能的显着提高。对于语言表实验,观察到类似的行为。

数据效率。与可用的海量语言或视觉语言数据集相比,机器人数据的丰富性要低得多。模型展示了迁移,这有助于PaLM-E解决机器人领域极少数训练示例中的机器人任务。

保留语言能力。在多模态训练期间,保留模型语言能力有两种途径。作为一种选择,冻结LLM并仅训练输入编码器是构建具身语言模型的可行途径,尽管这种方法偶尔会为机器人任务而挣扎。作为替代的原生路线,当整个模型进行端到端训练时,随模型规模的增加,模型会显着保留其原始语言性能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值