51-41 Stable Video Diffusion，高质量视频生成新时代

深圳季连AIgraphX

已于 2024-04-25 15:22:51 修改

阅读量1.3k

点赞数 28

分类专栏： aiXpilot 智驾大模型1 文章标签： AIGC stable diffusion 自动驾驶计算机视觉智慧城市

于 2024-04-17 08:58:41 首次发布

本文链接：https://blog.csdn.net/weixin_45035094/article/details/137793627

版权

aiXpilot 智驾大模型1 专栏收录该内容

59 篇文章 ¥89.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了Stability AI公司的稳定视频扩散模型SVD，这是一种用于高分辨率文本到视频和图像到视频生成的潜在视频扩散模型。通过文本到图像预训练、视频预训练和高质量视频微调三个阶段，SVD能生成高质量视频。研究发现，精心策划的预训练数据集对视频模型性能至关重要。此外，SVD模型还可用于多视图3D合成，为视频生成和3D理解提供强大先验。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

23年11月，Stability AI公司公开了稳定视频扩散模型Stable Video Diffusion(SVD)的代码和权重，视频生成迎来了新时代。SVD是一种潜在扩散模型，支持文本生成视频、图像生成视频以及物体多视角3D合成。从工程角度来看，本文主要提出了一种高质量、大型视频数据集的制作流程，并提出成功训练视频潜在扩散模型Video LDM的三阶段方法：文本到图像预训练、视频预训练和高质量视频微调。

Abstract

我们提出了稳定视频扩散模型Stable Video Diffusion——一种用于高分辨率、最先进的文本到视频和图像到视频生成的潜在视频扩散模型。最近，通过在小的、高质量的视频数据集上插入时间层并对其进行微调，用于 2D 图像合成的潜在扩散模型已经转化为视频生成模型。然而，文献中的训练方法差异很大，该领域尚未就管理视频数据的统一策略达成一致。

在本文中，我们明确并评估了视频LDM成功训练的三个不同阶段:文本到图像的预训练、视频预训练和高质量视频微调。更进一步，我们证明了精心策划的预训练数据集对于生成高质量视频的必要性，并提出了一个系统的策划过程来训练强大的基础模型，包括字幕和过滤策略。

然后，我们探索了在高质量数据上微调基础模型的影响，并训练一个与闭源视频生成有竞争力的文本到视频模型。基础模型为下游任务提供了强大的运动表示，例如图像到视频的生成和对相机运动特定 LoRA 模块的适应性。最后，我们的模型提供了强大的多视图3D先验&#x