22年6月,NVIDIA, UC Berkeley联合发布Generating Long Videos of Dynamic Scenes,这也是Sora技术报告中提及的32篇论文之一。
作者的主要贡献是提出了分层生成器架构Hierarchical Generator Architecture,该架构采用了巨大的时间感受野和创新的时间嵌入,优先考虑时间轴Time axis。通过多分辨率方法Multi-Resolution,首先生成低分辨率的视频,然后使用单独的超分辨率网络对其进行细化,生成丰富动态Rich and Dynamics的任意长视频Arbitrarily Long Videos。
Abstract
我们提出了一个视频生成模型,可以准确地再现物体运动、摄像机视角变化以及随着时间的推移出现的新内容。现有的视频生成方法往往无法在保持真实环境中预期的一致性的同时产生作为时间函数的新内容,例如看似合理的动态和对象持续性。一个常见的失败案例是由于过度依赖归纳偏置来提供时间一致性,内容永远不会改变。例如使用单个潜在编码来指示整个视频内容。另一方面,在没有长期一致性的情况下,生成的视频在不同的场景之间可能存在不切实际地变形。为了解决这些限制,我们通过重新设计时间潜在表示来优先考虑时间轴,并通过在较长视频上进行训练来从数据中学习长期一致性。为此,我们利用两阶段训练策略,我们分别使用低分辨率的较长视频和高分辨率的较短视频进行训练。为了评估我们模型的能力,我们引入了两个新的基准数据集,明确关注长时间动态。
1 Introduction
ideos 是随时间变化的数据,具有复杂的相机视点模式、运动、变形和遮挡。在某些方面,视频是无界的——它们可能会持续任意长的时间,并且随着时间的推移,可能出现的新内容数量没有限制。然而