对标Sora:李飞飞团队视频生成SOTA模型W.A.L.T论文解读

本文提出了一种基于transformer的W.A.L.T方法,通过因果编码器和窗口注意力架构优化视频生成。W.A.L.T在多个视频和图像生成任务上达到最先进的性能,且能有效处理高分辨率视频。研究还展示了从文本到视频生成的能力,证实了transformer在视频生成模型中的潜力。
摘要由CSDN通过智能技术生成

论文主页: Photorealistic Video Generation with Diffusion Models (walt-video-diffusion.github.io)

摘要

本文提出了基于transformer的方法W.A.L.T,通过扩散建模实现逼真的视频生成。我们的方法有两个关键设计决策。首先,我们使用因果编码器来统一压缩图像和视频到一个潜在空间中,实现跨模态的训练和生成。其次,为了内存和训练效率,我们使用了针对联合空间和时空生成建模的窗口注意力架构。这些设计决策使我们能够在已建立的视频(UCF-101和Kinetics-600)和图像(ImageNet)生成基准上取得最先进的性能,而无需使用分类器的自由引导。最后,我们还训练了一个由三个模型级联而成的模型,用于文本到视频的生成任务,包括一个基本的潜在视频扩散模型,以及两个视频超分辨率扩散模型,以在每秒8帧的速度下生成分辨率为512×896的视频。

简介

transformer是一种高度可扩展且可并行化的神经网络架构,旨在充分发挥硬件的计算能力。这一理想特性鼓励了研究界在诸如语言、音频、语音、视觉和机器人技术等各个领域越来越倾向于使用transformer而不是领域特定的架构。这种走向统一的趋势使研究人员能够分享和借鉴传统上不同领域的进展,从而导致模型设计中对transformer的偏好形成良性循环的创新和改进。然而,生成视频的模型是一个显著的例外。扩散模型已经成为图像和视频生成建模的主要范式。然而,U-Net架构,由一系列卷积和自注意层组成,一直是所有视频扩散方法的主导骨架。这种偏好源于变压器中全注意力机制的内存需求随输入序列长度的平方增长。这种扩展导致处理高维信号(如视频)时成本过高。潜在扩散模型(LDMs)通过在从自动编码器导出的低维潜在空间中运行来减少计算需求。在这种情况下的一个关键设计选择是所采用的潜在空间的类型:空间压缩与时空压缩。通常情况下,人们更喜欢空间压缩,因为它可以利用预训练的图像自动编码器和LDMs,这些模型是在大型配对的图像-文本数据集上训练的。然而,这种选择增加了网络的复杂性,并且由于内存限制,特别是在生成高分辨率视频方面,限制了将变压器作为骨干的可能性。另一方面,虽然时空压缩可以缓解这些问题,但它排除了使用配对的图像-文本数据集的可能性,后者比视频数据集要大得多且更加多样化。我们提出了基于transformer的Window Attension Latent Transformer(W.A.L.T):一种潜在视频扩散模型(LVDMs)的方法。该方法由两个阶段组成。首先,一个自动编码器将视频和图像都映射到一个统一的低维潜在空间中。这种设计选择使得能够在图像和视频数据集上共同训练单一生成模型,并且显著降低了生成高分辨率视频的计算负担。随后,本文提出了一种新的transformer block的设计,用于潜在视频扩散建模,它由交替的不重叠、窗口限制的空间和时空注意力层组成。这种设计具有两个主要优点:首先,使用局部窗口注意力显著降低了计算需求。其次,它便于联合训练,其中空间层独立处理图像和视频帧,而时空层则专门用于建模视频中的时间关系。尽管在概念上很简单,但我们的方法为transformer在公共基准上在潜在视频扩散中提供了首次实证证据,显示出其优越的生成质量和参数效率。具体而言,本方法在有条件类别视频生成(UCF-101 )、帧预测(Kinetics-600 )和有条件图像生成(ImageNet )方面报告了最先进的结果,而不使用分类器的自由引导。最后,为了展示该方法的可扩展性和效率,本文还展示了在具有挑战的逼真文本到视频生成任务上的结果。本文训练了一个由三个模型级联而成的模型,包括一个基本的潜在视频扩散模型,以及两个视频超分辨率扩散模型,以在每秒8帧的速度下生成分辨率为512×896的视频,并报告了在UCF-101基准上的最先进的零样本FVD分数。

模型设计

W.A.L.T包含两个主要模块:编码器和解码器。编码器将输入压缩为潜在表示z,解码器基于z生成目标图像或视频。

编码器采用一种因果3D卷积结构,可以独立编码第一帧。这样使模型可以同时处理图像和视频。图像被当成只有一帧的特例。编码器的输出z capturing了输入的空间-时域内在特征。

解码器是一个Transformer模型。它交替堆叠两种互补的窗口自注意力模块:

  • 空间自注意力 模型图像和视频帧内的特征
  • 时空自注意力 建模视频时序信息

前者可以处理图像和视频,后者专注于视频的时间动态。这样的设计兼顾了效率与表达能力。另外,通过在Transformer中加入交叉注意力,可以实现条件文本到视频的生成。

三级超分辨率视频生成

论文采用了一种高效的级联结构来生成高分辨率视频:

  1. Base模型 生成128分辨率视频
  2. 第一超分模型 空间上采样到448分辨率
  3. 第二超分模型 再次上采样到896分辨率

每级模型都有自己的专一任务。该流程使复杂任务分解成多个模块,同时保证了端到端的微调和控制。

实验结果

论文在多个公开数据集上验证了方法,主要发现包括:

  • 在分类视频生成和视频预测任务上,W.A.L.T取得新的业界最优结果,同时参数更少,训练步数也更少。
  • 在ImageNet数据集上,W.A.L.T也展现出强大的图像生成能力。其Inception Score高于之前所有方法。
  • 最后,论文展示了从文本描述生成高分辨率、连贯性强的视频。如下图所示:

文生视频示例

总结

本文为创新性地使用Transformer作为视频对抗扩散模型的 backbone 提供了有力实验支持。方法在多个任务上都取得新的state-of-the-art水平。论文证明了Transformer可以同时高效地建模图像和视频的内在特征。这为Transformer结构在生成模型中的应用提供了重要参考。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值