人工智能咨询培训老师叶梓 转载标明出处
在生成式人工智能(Generative AI)的浪潮中,一种全新的模型——Genie,由Google DeepMind的研究团队提出。Genie是一个从无标签的互联网视频数据中以无监督方式训练出来的生成型交互环境模型。这项研究突破了传统模型对于标注数据的依赖,为创建和探索虚拟世界提供了全新的途径。
Genie模型能够在没有具体动作标签或其他特定领域要求的情况下,从视频数据中学习并生成可控的交互式虚拟环境。传统生成这样的模型需要大量的标注数据,这不仅成本高昂,而且在某些领域难以实现。Genie的出现打破了这一局限,使得从海量的互联网视频数据中学习成为可能。

Genie模型的核心能力如图1所示:将各种不同的提示转换成交互式、可玩的环境。这些环境不仅易于创建,而且用户可以轻松地进入和探索。这一过程的实现得益于一个从互联网视频完全无监督学习得到的潜在动作接口。
Genie模型能够接收多种类型的输入提示,例如文本描述、手绘草图、真实照片或合成图像,并根据这些提示生成一个虚拟世界。在图1的右侧,研究者们展示了模型根据两个潜在动作生成的几帧图像。这些图像展示了模型如何根据用户输入的潜在动作,在帧与帧之间进行连贯且有意义的转换。

图2展示了Genie模型作为生成模型的一个重要特点:它能够以多种方式被提示,生成多样化的轨迹。这些轨迹不仅展示了丰富的角色动作,而且体现了模型的交互性和生成能力。
在图2的顶部,我们可以看到模型使用一个生成的图像作为提示,而在底部,模型则使用了一个手绘草图。这两种不同的输入方式展示了Genie模型的灵活性和泛化能力,它能够接受并响应不同类型的视觉提示。
方法
在构建 Genie 模型的过程中,研究者面临的挑战是:传统的 Transformer 模型在处理视频数据时内存成本呈二次方增长,这在视频帧数可能达到 时尤为突出。为了解决这一问题,研究者采用了一种高效的空间时间 Transformer(ST-transformer)架构。如图4所示ST-transformer 由多个空间时间块组成,每个块包含交错的空间和时间注意力层,后面跟着一个前馈层(FFW)。这种设计允许模型在每个时间步内对空间注意力进行局部化处理,同时在时间维度上保持因果关系。架构中的计算复杂性主导因素(即空间注意力层)与帧数呈线性关系而非二次方,这大大提高了视频生成的效率。在每个 ST 块中仅包含一个 FFW