51-41 Stable Video Diffusion,高质量视频生成新时代

本文介绍了Stability AI公司的稳定视频扩散模型SVD,这是一种用于高分辨率文本到视频和图像到视频生成的潜在视频扩散模型。通过文本到图像预训练、视频预训练和高质量视频微调三个阶段,SVD能生成高质量视频。研究发现,精心策划的预训练数据集对视频模型性能至关重要。此外,SVD模型还可用于多视图3D合成,为视频生成和3D理解提供强大先验。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

23年11月,Stability AI公司公开了稳定视频扩散模型Stable Video Diffusion(SVD)的代码和权重,视频生成迎来了新时代。SVD是一种潜在扩散模型,支持文本生成视频、图像生成视频以及物体多视角3D合成。从工程角度来看,本文主要提出了一种高质量、大型视频数据集的制作流程,并提出成功训练视频潜在扩散模型Video LDM的三阶段方法:文本到图像预训练、视频预训练和高质量视频微调。

Abstract

我们提出了稳定视频扩散模型Stable Video Diffusion——一种用于高分辨率、最先进的文本到视频和图像到视频生成的潜在视频扩散模型。最近,通过在小的、高质量的视频数据集上插入时间层并对其进行微调,用于 2D 图像合成的潜在扩散模型已经转化为视频生成模型。然而,文献中的训练方法差异很大,该领域尚未就管理视频数据的统一策略达成一致。

在本文中,我们明确并评估了视频LDM成功训练的三个不同阶段:文本到图像的预训练、视频预训练和高质量视频微调。更进一步,我们证明了精心策划的预训练数据集对于生成高质量视频的必要性,并提出了一个系统的策划过程来训练强大的基础模型,包括字幕和过滤策略。

然后,我们探索了在高质量数据上微调基础模型的影响,并训练一个与闭源视频生成有竞争力的文本到视频模型。基础模型为下游任务提供了强大的运动表示,例如图像到视频的生成和对相机运动特定 LoRA 模块的适应性。最后,我们的模型提供了强大的多视图3D先验&#x

### 如何提高 Stable Diffusion 3 生成图像的质量 #### 参数调整 对于参数设置,可以尝试增加采样步数 (steps),通常默认值为20至50之间。更高的数值能够提供更加精细的结果,但也会相应延长计算时间[^1]。 #### 提示词优化 精心设计提示语句有助于获得更好的输出效果。具体来说,使用详细的描述并加入特定风格指示可以帮助引导模型创建预期类型的图像。例如,“一幅充满未来感的城市夜景画作,带有霓虹灯光效”,这样的指令会比简单的“城市夜晚”更为有效[^2]。 #### 调整 CFG Scale 值 CFG(Classifier-Free Guidance)scale 控制着模型遵循文本提示的程度,默认情况下可能设得较低。适当增大此参数可以使最终产物更贴近输入的文字说明,不过过高的设定可能会导致失真现象发生。 #### 利用 Lora 或 ControlNet 插件增强功能 Lora 和 ControlNet 是两种流行的插件选项,前者允许加载预训练权重来微调现有模型;后者则能基于边缘检测等多种方式进一步指导绘图过程,两者均可用于提升质量[^3]。 ```python from diffusers import StableDiffusionPipeline, EulerAncestralDiscreteScheduler model_id = "stabilityai/stable-diffusion-3" scheduler = EulerAncestralDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler") pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler) prompt = "A beautiful landscape with mountains and a lake during sunset." image = pipe(prompt=prompt, num_inference_steps=80, guidance_scale=7.5).images[0] image.show() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

深圳季连AIgraphX

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值