Genie:开创性的生成型交互环境

人工智能咨询培训老师叶梓 转载标明出处

在生成式人工智能(Generative AI)的浪潮中,一种全新的模型——Genie,由Google DeepMind的研究团队提出。Genie是一个从无标签的互联网视频数据中以无监督方式训练出来的生成型交互环境模型。这项研究突破了传统模型对于标注数据的依赖,为创建和探索虚拟世界提供了全新的途径。

Genie模型能够在没有具体动作标签或其他特定领域要求的情况下,从视频数据中学习并生成可控的交互式虚拟环境。传统生成这样的模型需要大量的标注数据,这不仅成本高昂,而且在某些领域难以实现。Genie的出现打破了这一局限,使得从海量的互联网视频数据中学习成为可能。

Genie模型的核心能力

Genie模型的核心能力如图1所示:将各种不同的提示转换成交互式、可玩的环境。这些环境不仅易于创建,而且用户可以轻松地进入和探索。这一过程的实现得益于一个从互联网视频完全无监督学习得到的潜在动作接口。

Genie模型能够接收多种类型的输入提示,例如文本描述、手绘草图、真实照片或合成图像,并根据这些提示生成一个虚拟世界。在图1的右侧,研究者们展示了模型根据两个潜在动作生成的几帧图像。这些图像展示了模型如何根据用户输入的潜在动作,在帧与帧之间进行连贯且有意义的转换。

Genie 可以通过各种方式进行提示

图2展示了Genie模型作为生成模型的一个重要特点:它能够以多种方式被提示,生成多样化的轨迹。这些轨迹不仅展示了丰富的角色动作,而且体现了模型的交互性和生成能力。

在图2的顶部,我们可以看到模型使用一个生成的图像作为提示,而在底部,模型则使用了一个手绘草图。这两种不同的输入方式展示了Genie模型的灵活性和泛化能力,它能够接受并响应不同类型的视觉提示。

方法

在构建 Genie 模型的过程中,研究者面临的挑战是:传统的 Transformer 模型在处理视频数据时内存成本呈二次方增长,这在视频帧数可能达到 时尤为突出。为了解决这一问题,研究者采用了一种高效的空间时间 Transformer(ST-transformer)架构。如图4所示ST-transformer 由多个空间时间块组成,每个块包含交错的空间和时间注意力层,后面跟着一个前馈层(FFW)。这种设计允许模型在每个时间步内对空间注意力进行局部化处理,同时在时间维度上保持因果关系。架构中的计算复杂性主导因素(即空间注意力层)与帧数呈线性关系而非二次方,这大大提高了视频生成的效率。在每个 ST 块中仅包含一个 FFW

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能大模型讲师培训咨询叶梓

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值