Stable Video Diffusion SVD 8GB 出图

最新推荐文章于 2025-02-14 10:12:59 发布

germandai

最新推荐文章于 2025-02-14 10:12:59 发布

阅读量721

点赞数 12

文章标签： AIGC stable diffusion AI作画

本文链接：https://blog.csdn.net/weixin_44184411/article/details/135296514

版权

在利用Comfyui的txt2vid工具生成AI短视频时，遇到内存瓶颈。通过引入半精度SVD模型（如svd-fp16.safetensorsSD2.1版本），以及XL型和decoder，用户可以替换原有模型来降低8GB内存要求，无需详细说明过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在做Comfyui的txt2vid, 生成AI短视频，发现8GB要跑起来真的很难，好在有人提供了半精度模型

地址是：半精度SVD模型

svd-fp16.safetensors 是SD2.1模型，其它还XL型及decoder, 下载后替换原来的模型就可以，不细述。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

germandai

关注关注

12
点赞
踩
7

收藏

觉得还不错? 一键收藏
3
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

stable video diffusion(SVD):scaling latent video diffusion models to large datasets

liguandong

12-11

679

同样基于base模型，可以微调图生视频模型。使用network preconditioning将图像模型中的固定离散噪声调度微调为连续噪声，对大小为256x384的图像进行微调，在插入temporal layer后，使用256x384的LVD-F对模型进行训练，使用bs为768在100k迭代中微调模型以生成14个320x576的帧。有了基础数据集后，需要关注美学指标，比如视频中静止太多，文本太多，因此使用基于深度光流对视频进行评估，使用了2帧的帧率，把平均光流幅度低于一定阈值的视频都过滤掉了。

使用SVD(Stable Video Diffusion)执行视频插帧任务

沉迷单车的追风少年

10-02

1641

使用生成式模型完成视频插帧任务相比于传统的方法有很大的优势，可以完成大运动幅度和更好的流畅性插帧任务。这篇博客介绍如何用目前最流行的视频生成开源模型SVD完成视频插帧任务。

3 条评论您还未登录，请先登录后发表或查看评论

Stable Video Diffusion（SVD）安装和测试

计算机视觉领域

11-24

1万+

Stable Video Diffusion（SVD）安装和测试

低显存的福音！8G显存玩转InstantID（附整合包）

Alex919的博客

03-14

3095

InstantID的主模型，从https://huggingface.co/InstantX/InstantID/resolve/main/ip-adapter.bin?完成安装，就可以执行run_nvidia_gpu.bat进行玩耍了，整合包里已经包含了一些示例工作流，点击加载按钮，选择插件安装目录下的examples/InstantID_basic.json，然后按照下图的参数，选择一张照片，就能生成一张漫画风格的自拍啦~论文地址：https://arxiv.org/abs/2401.07519。

ComfyUI 教程：svd图生视频

最新发布

技术宅男改变世界

02-14

758

SVD是由 Stable Diffusion 的创作者 Stability AI 公司开源发布的。SVD的全称是 Stable Video Diffusion，也就是稳定视频扩散的意思，目前最新版本是1.1。这个模型以静止图像作为条件帧，并从中生成视频，目前还不支持使用提示词引导。默认参数下生成的结果是分辨率为1024x576的25帧视频，不过ComfyUI中实测也可以生成多种分辨率和更长时长的视频。SVD既可用于非商业用途，也可用于商业用途。

Stable Video Diffusion（SVD）搭建部署

培根芝士的专栏

01-14

1337

Stable Video Diffusion（SVD）是Stability AI于2023年11月21日发布的视频生成式大模型，是一种用于高分辨率、先进的文本到视频和图像到视频生成的潜在视频扩散模型。该模型不仅支持文本、图像生成视频，还支持多视角渲染和帧插入提升视频帧率，用户可以调整模型选择、视频尺寸、帧率及镜头移动距离等参数。

ubuntu 系统部署 Stable Video Diffusion

maowenbei的博客

12-05

2672

Ubuntu系统本地部署和使用 Stable Video Diffusion（SVD）

在Ubuntu上部署Stable Video Diffusion动画制作

BBM的博客

02-09

3005

Stable Diffusion团队推出的开源模型Stable Video Diffusion，支持生成约3秒的视频，分辨率为576×1024。通过测试视频展示了其令人瞩目的性能，SVD模型是一个生成图像到视频的扩散模型，通过对静止图像的条件化生成短视频。其特点主要包括：

《Stable Video Diffusion》：SVD，2023年开源视频生成模型中的佼佼者！

my_name_is_learn的博客

01-20

1168

在这篇文章中，我将面向之前已经熟悉StableDiffusion(SD)的读者，简要解读SVD的论文。

Stable Video Diffusion~2

whaosoft143ai的博客

04-30

401

论文会分享诸多的实验成果，包括验证精心构建的数据集对生成高质量视频的必要性、探究视频预训练与微调这两步的重要性、展示基础模型如何为图生视频等下游任务提供强大的运动表示、演示模型如何提供多视角三维先验并可以作为微调多视角扩散模型的基础模型在一轮神经网络推理中同时生成多视角的图片。绝大多数工作在训练一个基于扩散模型的视频生成模型时，都是在预训练的 SD 上加入时序模块，如 3D 卷积，并通过微调把一个图像生成模型转换成视频生成模型。这样的好处是，在我们在生成视频时，可以用该约束来指定视频的播放速度。whao

代码解读：Stable Video Diffusion 中对运动程度的控制

沉迷单车的追风少年

02-15

1038

在SVD中，对运动的控制可以分成对镜头运动的控制和对内容运动的控制，这篇博客详细通过代码讲解如何对内容运动的控制。

text2video:该软件工具可将文本转换为视频，以提供更吸引人的学习体验

05-04

Text2Video 描述 Text2Video是一种软件工具，可将文本转换为视频，以提供更吸引人的学习体验。我开始这个项目是因为在这个学期中，我被分配了许多阅读作业，并且在阅读长篇文章时感到沮丧。对我来说，通过阅读学习一些东西非常耗时和精力。因此我想，“如果有一种工具可以将文本转换成更具吸引力的内容（例如视频），那会不会改善我的学习体验？” 我进行了一些研究，发现许多文章和研究支持视频对许多人来说比文本更有效地学习，其中包括以下数据：人脑处理视觉内容的速度比文字处理速度快60,000倍。观看者保留了95％的视频消息，而阅读文本时保留了10％的消息。 65％的人认为自己是视觉学习者。我创建了一个原型Web应用程序，该应用程序将文本作为输入并生成视频作为输出。这是上的。我计划针对18至23岁的年轻大学生进一步开展该项目，因为根据我发现的调查，他们倾向于通过视

txt2vid:文字转视频荣誉项目，包含TGAN，TGANv2和“创建您所讲的内容”的实现

03-29

txt2video 生成视频，其条件是使用GAN编写文本。荣誉论文。此实现包含以下书面实现：创造你所讲的 GAN TGANv2 修改后两个以文本为条件。文本使用Bi-LSTM编码，该Bi-LSTM已经过预训练以生成下一个标记-从内存上来说，该方法与“创建您要说的内容”相同。另外，为了更有效地捕获鉴别器中的运动，还利用了非局部块（自我注意）。引入了类似于StackGAN ++的条件信息。。对于鉴别器，我们比较两对： $ {（x_r，c_r），（x_f，c_r）} $ $ {（x_r，c_f），（x_f，c_r）} $ 对于生成器，我们仅比较上面的第一对。 x_r是真实视频 x_f是假视频 c_r字幕与视频正确关联 c_f的字幕与视频不相关标准GAN损耗是首选的，因为1个判别步骤与1个生成器步骤。另外，我通过以下方法对非相关性损失进行了实验： $（

大模型中 .safetensors 文件、.ckpt文件和.pth以及.bin文件区别、加载和保存以及转换方式

热门推荐

CHNIM的博客

03-06

5万+

在大型深度学习模型的上下文中，.bin和.pthckpt文件这是由 Hugging Face 推出的一种新型安全模型存储格式，特别关注模型安全性、隐私保护和快速加载。它仅包含模型的权重参数，而不包括执行代码，这样可以减少模型文件大小，提高加载速度。加载方式：使用 Hugging Face 提供的相关API来加载文件，例如函数。ckpt文件。

多模态——使用stable-video-diffusion将图片生成视频

weixin_44826203的博客

11-24

9538

近期，stabilityAI发布了一个新的项目，是将图片作为基础，生成一个相关的小视频，本文主要是体验一下stable-video-diffusion的使用，以及对其使用方法进行简单的介绍。

论文阅读：Text2Video: Text-driven Talking-head Video Synthesis with PhoneticDictionary

landing_guy_的博客

05-18

1592

Text2Video的论文阅读

免费使用支持离线部署使用的 txt2video 文本生成视频大模型(Text-to-Video-Synthesis Model)

代码讲故事

01-31

1971

免费使用支持离线部署使用的 txt2video 文本生成视频大模型(Text-to-Video-Synthesis Model)。文本生成视频大模型(Text-to-Video-Synthesis Model)是一种基于深度学习技术的人工智能模型，它可以将自然语言文本描述转换为相应的视频。即通过输入文本描述，自动生成符合描述内容的视频。

Text2Video 项目使用教程

gitblog_00350的博客

08-12

411

Text2Video 项目使用教程 text2video半个神器????一键文本转视频的工具项目地址:https://gitcode.com/gh_mirrors/te/text2video 1. 项目的目录结构及介绍 text2video/ ├── README.md ├── requirements.txt ├── setup.py ├── src/ │ ├── __init__.py │ ...

【AI绘画】ComfyUI 完全入门：图生视频

A2421417624的博客

09-19

3494

大家好，我是每天分享AI应用的彤姐！ComfyUI 是一个基于 Stable Diffusion 的AI绘画创作工具，最近发展势头特别迅猛，但是 ComfyUI 的上手门槛有点高，用户需要对 Stable Diffusion 以及各种数字技术的原理有一定的了解才行。这个系列将会介绍 ComfyUI 的一些基础概念和使用方法，让大家更快的掌握 ComfyUI 的使用技巧，创作出自己独特的艺术作品。本文继续分享 ComfyUI 的使用方法：图生视频，也就是根据图片生成视频，使用的模型是SVD。

Stable Video Diffusion (SVD

01-17

### Stable Video Diffusion (SVD)介绍 Stable Video Diffusion (SVD)，由 Stability AI 推出，旨在构建一个高质量的视频生成通用模型。此模型通过大规模数据集训练，在多种下游任务中微调后均展现出优异的效果[^1]。 #### 工作原理核心理念在于扩展潜在扩散模型至大型数据集的应用范围。具体实现上，SVD基于预训练的文字到图像模型进行微调，并引入时间层（temporal layers），从而赋予模型理解帧间关系的能力。这一过程涉及收集并清理大量视频素材作为训练基础，随后利用这些资料进一步优化模型参数，使其能够捕捉动态变化特征。对于技术细节而言，SVD采用了类似于稳定扩散架构的设计思路，但在处理三维时空信息方面做了针对性改进。例如，为了适应更复杂的场景转换需求，除了常规的空间编码外，特别加入了针对连续帧之间过渡平滑性的考量机制。此外，考虑到计算资源的有效利用，提供了不同版本的权重文件供用户选择，如`svd-fp16.safetensors`对应于SD2.1模型配置下的轻量化选项[^2]。 #### 应用领域得益于其强大的泛化能力和灵活性，SVD适用于多个应用场景： - **创意内容创作**：艺术家可以借助该工具快速生成具有艺术风格的动画片段； - **影视后期制作**：用于特效合成、背景替换等工作流程中的辅助设计； - **虚拟现实体验开发**：创建沉浸式的交互环境所需的真实感画面渲染； - **科学研究可视化**：帮助研究人员更好地展示复杂概念或模拟结果。 ```python import torch from diffusers import StableVideoDiffusionPipeline model_path = "path/to/svd-model" device = "cuda" pipeline = StableVideoDiffusionPipeline.from_pretrained(model_path).to(device) prompt = ["a beautiful sunset over mountains"] video_frames = pipeline(prompt=prompt, num_inference_steps=50, guidance_scale=7.5)["frames"] for frame in video_frames: display(frame) ```