视频作为现实世界决策的新语言

162 篇文章 0 订阅
134 篇文章 0 订阅

24年2月来自谷歌和伯克利分校的论文“Video as the New Language for Real-World Decision Making”。

互联网上有大量文本和视频数据,通过下一个token或帧预测支持大规模自监督学习。然而,它们并没有得到同等的利用:语言模型对现实世界产生了重大影响,而视频生成仍然主要局限于媒体娱乐。不过,视频数据捕捉了难以用语言表达的物理世界重要信息。为了解决这一差距,讨论一个机会,即扩展视频生成工作以解决现实世界中的任务。与语言类似,视频可以作为一个统一的界面,吸收互联网知识并代表不同的任务。此外,视频生成像语言模型一样,通过上下文学习、规划和强化学习等技术,充当规划器、智体、计算引擎和环境模拟器。在机器人、自动驾驶和科学等领域确定了重大影响机会,最近的研究证明视频生成的这种能力是可以实现的。最后,确定视频生成中阻碍进展的关键挑战。解决这些挑战将使视频生成模型能够在更广泛的 AI 应用中与语言模型一起展示独特的价值。

视频是信息的统一表征,也是任务的统一界面,还是状态-动作的统一空间。

视频作为信息的一个统一表征

虽然互联网文本数据通过大语言模型为数字/知识世界提供了巨大的价值,但文本更适合捕捉高级抽象,而不是物理世界的低级细节。下面列出几种难以用文本表达但可以通过视频轻松捕捉的信息。

视觉和空间信息:这包括视觉细节,如颜色、形状、纹理、灯光效果,以及空间细节,如物体在空间中的排列方式、它们的相对位置、距离、方向和 3D 信息。这些信息自然存在于图像/视频格式中,而不是文本格式。

物理和动力学:这包括物体和环境如何相互物理交互的细节,例如碰撞、操纵和其他受物理定律影响的运动。虽然文本可以描述高层次的运动(例如“一辆汽车在街上行驶”),但它往往不足以捕捉低级细节,例如施加在车辆上的扭矩和摩擦力。视频可以隐式地捕捉这些信息。

行为和动作信息:这包括诸如人类行为和智体动作之类的信息,描述执行任务的低级细节,例如如何组装一件家具。文本再次可以主要捕获有关如何执行任务的高级描述,而不是诸如精确动作和移动之类的详细信息。

人们可能会想,即使文本不足以捕捉上述信息,为什么是视频?除了存在于互联网规模之外,视频对人类来说是可解释的(类似于文本),因此可以轻松进行调试、交互和安全推测。此外,视频是一种灵活的表示形式,可以表征不同空间和时间分辨率的信息,例如,以埃(angstrom,10^-10米)级距离移动的原子(Kashin,2021)和以每秒一万亿帧速度传播的光(Faccio & Velten,2018)。

视频生成作为一个统一的任务界面

除了可以吸收广泛信息的统一表示之外,从语言建模中看到,需要一个统一的任务界面,通过该界面可以使用单个目标(例如,下一个标记预测)来表达不同的任务;此外,信息表示(例如,文本)和任务界面(例如,文本生成)之间的一致性,使得广泛的知识能够迁移到特定于任务的决策中。

经典计算机视觉任务。在自然语言处理中,许多任务(例如,机器翻译、文本摘要、问答、情感分析、命名实体识别、词性标记、文本分类、对话系统)传统上被视为不同的任务,但现在都已统一在语言建模的伞下。这使得跨任务的泛化和知识共享成为可能。同样,计算机视觉也有广泛的任务,涵盖语义分割、深度估计、表面法线估计、姿势估计、边缘检测和目标跟踪。最近的研究表明,可以将各种视觉任务转换为视频生成任务,如图所示(Bai,2023;Bar,2022;Wang,2023b),并且这种解决视觉任务的统一方法可以随模型大小、数据大小和上下文长度的增加而扩展(Bai,2023)。

请添加图片描述

将视觉任务转换为视频生成任务通常涉及以下步骤:(1)将任务的输入和输出(例如分割图、深度图)构造成统一的图像/视频空间,(2)重新排序图像帧,以便输入图像后面跟着特定任务的预期输出图像(例如,常规输入图像后跟深度图),以及(3)通过提供示例输入-输出对,作为条件视频生成模型的输入来利用上下文学习,指定所需的任务。

视频作为答案。在传统的视觉问答 (VQA)(Antol,2015)中,预期的答案是文本。随着视频生成的发展,一项新任务是将视频视为答案,例如,将生成一个视频来回答“如何制作折纸飞机”(Soucˇek,2023;Yang,2023b)。类似于语言模型可以生成针对人类文本查询的定制响应,视频模型也可以生成具有大量低级细节的定制答案来回答操作方法问题。这种视频响应可能比文本响应更受人类的青睐(Yadav,2011)。如图展示了文本-转-视频模型针对一组操作方法查询生成的视频。此外,可以考虑在初始帧上调节生成在用户特定场景中合成视频答案。尽管前景如此光明,但当今的文本-转-视频模型合成的视频,通常太短/太简单,没有包含足够的信息来完全回答用户的问题。

合成视频帧来回答用户问题的问题与使用语言模型进行规划(Valmeekam,2023)有相似之处,只是状态和低级动作空间现在都是像素而不是文本。人们可以利用语言模型或视觉语言模型将高级目标(例如“如何制作寿司”)分解为特定的子目标(例如“首先,将米饭放在卷帘上”),并为每个子目标合成规划,同时验证合成规划的合理性(Du, 2023c)。

视觉推理和思维链。通过统一的信息表示和统一的任务界面,推理已出现在语言建模中,其中模型可以引出相关信息作为解决更复杂问题的中间步骤(Wei, 2022)。同样,由于视频是统一的表示和任务界面,视频生成也通过预测图像的掩码区域表现出视觉推理的早期迹象,如图所示(Bai et al., 2023)。通过生成具有正确辅助线集合的视频,看看下一帧预测是否可用于解决类似于(Trinh 2024)更复杂的几何问题,这将会很有趣。

基于利用下一帧预测进行视觉推理和解决几何问题的想法,可以进一步使用视频来表征推理过程(Himakun-thala,2023)和算法(Yang,2022b)。具体来说,(Yang,2022b)使用视频表征了广度优先搜索 (BFS) 算法的执行状态。在这种情况下,学习生成视频对应于学习搜索,如图所示(Silver,2017)。

请添加图片描述

虽然图中的示例可能看起来很牵强,但它们可以作为早期指标,表明视频生成作为预训练任务可能会引发类似于语言模型的推理行为,从而揭示利用视频生成解决复杂推理和算法任务的机会。

视频作为统一的状态-动作空间

视频生成可以吸收广泛的知识并表征不同的视觉任务。

具身人工智能长期存在的挑战之一是数据碎片化(data fragmentation),其中一个机器人执行一组任务收集的数据集几乎无法用在不同的机器人或不同的任务集上进行学习(Padalkar,2023)。跨机器人和任务共享知识的主要困难,在于每种类型的机器人和任务都有不同的状态-动作空间。为了解决这个困难,(Du,2023b)提倡使用像素空间作为跨任务和环境的统一状态-动作空间。在这个框架下,具身规划可以被视为一个条件视频生成问题,从而受益于互联网预训练的视频生成模型。然后可以使用附加模块,例如逆动力学模型(Du et al., 2023b)、目标条件策略(Black, 2023; Kang, 2023; Du, 2023c)、光流网络(Ko, 2023)或密集网格点(Wen, 2023)等,从高级视频规划中恢复低级机器人控制。如图(顶部)说明了由以前的工作生成的视频规划。大多数现有工作为每个机器人训练一个视频生成模型,这降低了使用视频作为具身学习统一状态-动作空间的潜在好处。该方法提供额外的生成视频规划,这些计划来自如图(底部)使用一组多样化的机器人和任务在 Open X-Embodiment 数据集(Padalkar, 2023)上训练视频生成模型。先前生成的视频规划和新生成的视频规划都看起来具有高度的逼真度,并且成功完成了指定的任务。
请添加图片描述

虽然视频生成本身已经可以解决上述的许多任务,但视频生成中的另一个重要机会是模拟各种系统和过程的视觉观测,以便根据模拟结果优化系统的控制输入。 这对于可以收集大量视频数据但难以明确表达底层动态的应用尤其有用(例如,云彩的移动、与软体的交互)。

生成式游戏环境

几十年来,游戏一直被用作 AI 算法的试验台(Yannakakis & Togelius,2018)。例如,Arcade 学习环境(Bellemare,2013)促成了深度 Q 学习的发展,这是第一个在玩 Atari 游戏时达到人类水平的 AI 智体(Mnih,2015)。同样,可以将游戏视为一种测试生成模拟器质量的手段,通过与游戏引擎的真实模拟进行比较。未来,甚至可能用生成模型超越现有人类设计的模拟环境所能达到的范围。

模拟复杂游戏。动作条件视频生成可能模拟复杂计算机游戏(如 Minecraft)的环境动态。作为概念验证,训练一个基于 Transformer 的架构,该架构随时间自回归,可根据情节历史预测未来的智体动作和观察结果。用(Baker,2022) 的“合同数据”,该数据由人类与游戏互动时收集的轨迹组成。观察和动作都是量化的tokens,从而将基于模型的推出减少到下一个token预测。请注意,在这种情况下,该模型既充当世界模型,又充当策略:给定一个以动作结尾的交替观察和动作序列,该模型可以推断下一个观察结果(世界模型),给定一个以观测结尾的类似序列,该模型可以推断要采取的下一步行动(策略)。如图显示了游戏Minecraft中该模型生成的一些轨迹。该模型能够生成与复杂策略(例如,使用镐头打破石块)相对应的动作和转换。

请添加图片描述

有了这样的策略和动态主干,就可以采用基于模型的强化学习算法,例如 Dyna(Sutton,1991)、Dreamer(Hafner,2020)和 MuZero(Schrit-twieser,2019;Antonoglou,2022),来改进策略。这需要从动态模型中进行大量采样,而这又要求生成模型具有计算效率。请注意,尽管视频生成模型具有高度通用性,但在规划方面,世界模型可能不必是视频模型,而潜状态空间模型以前往往受到青睐(Ichter & Pavone,2019;Hafner,2020)。

生成新的游戏环境。程序化生成新游戏内容和关卡(levels)是游戏 AI 社区的一个活跃研究领域(Summerville,2018),事实证明,这对于 RL 智体的训练和评估都很有用(Risi & Togelius,2020;Justesen,2018;Cobbe,2020)。有人尝试利用生成模型进行游戏设计,通过直接预测帧(Bamford & Lucas,2020)或修改背景来生成新的游戏关卡(Kim,2020)。然而,这些工作依赖于有特权得模拟数据,并且只在小范围内尝试过,限制了生成全新游戏环境的潜力。

最近的研究表明,可以利用未标记的互联网规模游戏数据来学习潜动作,然后训练动作可控的视频模型(Bruce,2024)。这使得从提示图像生成无限可能的多样化交互环境成为可能。如图显示由人类玩家在给定两个新起始帧情况下选择潜动作控制生成的游戏轨迹。虽然这项工作仍处于探索阶段,但可以想象未来还可以整合学习的奖励模型(Chan,2023;Du,2023a;Escontrela,2023)在完全生成的游戏环境中训练 RL 智体。

请添加图片描述

机器人和自动驾驶

模仿SE(3)动作空间。机器人学习中长期存在的挑战之一是模拟-到-现实的迁移(Rusu,2017),其中在模拟器中训练的策略无法转移到真实机器人的执行中。(Yang 2023b) 证明了可以使用简单的 Cartesion 动作空间从语言表环境 (Lynch,2023) 中学习基于真实机器人视频数据的动作条件下一帧预测模型。如图说明下一帧预测可以预测 SE(3) 空间中更一般的末端执行器动作的视觉效果 (Blanco-Claraco, 2021)。

请添加图片描述

生成式 SE(3) 模拟器的一个直接用例是评估机器人策略,考虑到与真实机器人评估相关的安全考虑,这特别有用。除了评估之外,Yang 等人(2023b) 用语言表格环境中生成模拟器的部署训练了 RL 策略。接下来一个有趣的步骤是使用 Dyna 风格的算法 (Sutton, 1991) 从模拟部署和真实环境中学习策略。在这种设置下,将在执行策略时收集真实世界的视频,这将作为生成模拟器的额外演示和反馈。最后,生成模拟器可以通过在不同环境中的视频部署实现多任务和多环境策略的有效训练。这在以前是不可能的,因为策略通常一次只能访问一个真实世界环境。

域随机化。生成模拟器的另一个好处是,它广泛应用于机器人、导航和自动驾驶,即它们能够将自然随机性引入训练环境,改善在模拟中训练的策略在真实世界的迁移。如果没有生成模型,则需要通过硬编码渲染规则(Tobin,2017)进行域随机化,这很繁琐,并且会导致环境变化有限和渲染效果不切实际。采用生成模拟器,最近的研究表明,可以将不同的驾驶条件(例如晴天、有雾、下雪、下雨、夜间)引入模拟器(Hu,2023)。此外,结合互联网规模的知识,可以模拟特定位置的驾驶条件,例如模拟在金门大桥上雨中驾驶,如图所示,能够训练具有不同位置和天气条件的自动驾驶策略。
请添加图片描述

科学和工程

视频可以作为广泛科学和工程领域的统一表示,影响医学成像、计算机图像处理和计算流体力学等研究领域(Steinman,2002)。在视觉信息可以轻松被摄像机捕捉但底层动态系统难以识别的情况下(例如,云彩的运动、电子显微镜下的原子运动),控制输入为条件的视频生成模型可以成为有效的视觉模拟器,然后可以将其用于获得更好的控制输入。如图所示,使用从 (Schwarzer 2023)收集的 STEM 数据,说明了单层碳原子上硅原子在受到扫描透射电子显微镜 (STEM) 电子束刺激时的跃迁动力学。可以看到,生成模拟器能够表征硅原子在像素空间中的运动。

请添加图片描述

使用高度逼真的视觉模拟器来响应控制输入,可以缓解科学研究中硬件访问受限的问题,因为科学研究需要操作专门的设备,例如电子显微镜。然而,利用视觉生成模拟器进行控制输入优化,需要进一步研究以确保其有效性和效果。

除了缩小模拟科学过程的模拟与现实差距外,生成模拟器的另一个好处是它们具有固定的计算开销,这在传统计算方法难以处理时非常有用。例如,模拟量热计(calorimeter)簇射,需要计算电子之间的成对相互作用,当电子数量很大时,其复杂性很快就会变得不切实际(Mikuni & Nachman,2022)。另一方面,电子簇射的视频具有固定的计算开销,与簇射建模的分辨率成正比。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值