Snap Video：用于文本到视频合成的扩展时空变换器-CSDN博客

本文链接：https://blog.csdn.net/weixin_44292902/article/details/140356988

人工智能咨询培训老师叶梓转载标明出处

图像生成模型的质量和多功能性的显著提升，研究界开始将其应用于视频生成领域。但是视频内容高度冗余，直接将图像模型技术应用于视频生成可能会降低运动的保真度和视觉质量，并影响可扩展性。来自 Snap 的研究团队及其合作者提出了 "Snap Video"，这是一个以视频为中心的模型，系统地解决了这些挑战。它扩展了EDM（Energetic Diffusion Model）框架，以考虑空间和时间冗余像素，并自然支持视频生成。另外，由于U-Net在生成视频时扩展性差，需要显著的计算开销。因此本文还提出了一种新的基于变换器的架构，其训练速度比U-Nets快3.31倍（在推理时大约快4.5倍）。这使本模型能够首次高效地训练具有数十亿参数的文本到视频模型，达到一系列基准测试的最新结果，并生成质量更高、时间一致性和运动复杂性显著的视频。用户研究表明，本模型在文本对齐和运动质量方面比其他最新方法更受好评。