CogVideoX-5B终于开源图生视频模型了~这下有得玩了~已支持comfyui~!

CogVideoX 系列近期开源了图生视频模型 CogVideoX-5B-I2V 。该模型可以将一张图像作为背景输入,结合提示词一起生成视频,能够生成具有较高视觉效果的动态视频,具有更强的可控性,非常适合从静态图像中提取内容并制作视频场景。至此,CogVideoX系列模型已经支持文本生成视频,视频续写,图片生成视频三种任务。

此外,ComfyUI-CogVideoXWrapper是一个整合了 CogVideoX 模型的 UI 工具,支持图像到视频(Image-to-Video)和文本到视频(Text-to-Video)功能,允许用户通过 ComfyUI 界面轻松进行视频生成,并提供了多种优化和实验性功能。大家可以通过一下链接使用。

相关链接

Github:https://github.com/THUDM/CogVideo

ComfyUI:https://github.com/kijai/ComfyUI-CogVideoXWrapper

模型下载:https://huggingface.co/THUDM/CogVideoX-5b-I2V

模型特点

  • CogVideoX-5b-I2V 是一个图像到视频(Image-to-Video)的版本,通过将静态图像和文本描述结合,生成动态视频。支持 BF16 精度,能够在图像的基础上生成符合描述的动画效果。

  • 推理性能:单 GPU A100 的推理时间约为 180 秒,支持多 GPU 推理和量化推理。模型内置多种优化策略,如模型 CPU 卸载、切片和拼接,以减少显存使用,提高推理速度。

  • 量化推理支持:使用 PytorchAO 和 Optimum-quanto 可以对模型进行量化,以降低显存需求,使模型能够在低显存 GPU(如免费的 T4 Colab)上运行,并显著提升推理速度。

  • 应用场景:支持的最大视频长度为 6 秒,每秒 8 帧,分辨率为 720 x 480,适合用于广告、短视频制作、动态场景建模等应用。

  • 快速上手:提供了详细的模型使用指南和代码示例,用户可以通过 Huggingface diffusers 库部署模型,并使用静态图像和英语描述生成视频内容。

ComfyUI使用

  • ComfyUI已支持官方的 CogVideoX-5b 和 CogVideoX-5b-I2V 模型,分别用于文本生成视频和图像生成视频。同时支持实验性图像到图像(img2img)转换,尝试用于视频到视频(vid2vid)工作流。

  • 性能优化:集成了 onediff 技术,使采样时间减少约 40%。在 4090 GPU 上,每 49 帧的采样时间仅需 4.23 秒,但需要安装 Linux、torch 2.4.0、onediff 和 nexfort。

  • 无限视频生成:通过时间拼接(temporal tiling)功能实现无限视频生成,为用户提供更灵活的创作选择。

  • 实验性功能:支持多种实验性功能,如自动下载模型、使用 ComfyUI 的 T5 文本编码器,提供临时解决方案以减少显存需求。内置的 VAE 解码阶段显存需求较大,但整体采样过程占用显存仅 5-6GB。

  • 安装与使用:需要 diffusers 0.30.3 及更高版本,提供了安装和配置指南。用户可以根据 README 中的说明快速上手,并在 ComfyUI 中直观地操作

### 使用ComfyUI创建像到视频 #### 创建高质量像的过程 Stable Diffusion ComfyUI是一款基于开源Stable Diffusion文本转像模型的本地形用户界面(GUI)工具,用于成高分辨率像。它提供了一个用户友好的界面,让用户能够轻松自定义和控制成过程,并探索各种创意可能性[^2]。 对于希望利用ComfyUI来创作像的用户来说,理解其工作流节点和底层逻辑至关重要。这不仅有助于提高工作效率,还能确保所成的内容质量更高。例如,在处理人物像时,可以通过特定的工作流实现高质量的人像抠及背景替换操作,同时保持片细节与风格的一致性和自然度[^4]。 #### 将静态像转换成动态视频的方法 当涉及到从单张静止画面转变为连续播放的画面序列即视频文件时,ComfyUI同样具备强大的功能支持- **时间轴动画制作**:虽然原并不直接支持视频合成,但是借助外部软件如ffmpeg或其他专门针对帧间过渡效果编辑器的帮助下,可以先批量导出多帧不同状态下的像作为中间环节; - **脚本自动化执行**:编写Python脚本来调用ComfyUI API接口完成一系列预设动作(比如改变提示词、调整参数设置),从而获得一组按照一定规律变化的结果集; - **后期拼接渲染**:最后再把这些单独存在的位资源导入专业的剪辑平台进行组装排列形成完整的影片作品。 ```python import comfyui_api as api from PIL import Image, ImageSequence def generate_image_sequence(prompt_list): images = [] for prompt in prompt_list: img_data = api.generate_image(prompt=prompt) image = Image.open(img_data) images.append(image) return images prompts = ["A beautiful sunset", "The night sky with stars"] frames = generate_image_sequence(prompts) # Save frames to GIF file or use ffmpeg to create video from these frames. frames[0].save('output.gif', save_all=True, append_images=frames[1:], duration=500, loop=0) ``` 此代码片段展示了如何通过编程方式让ComfyUI根据不同的输入描述语句依次产对应的视觉表达形式,并最终保存为GIF动或是进一步加工成为真正的多媒体格式文件[^1]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AIGC Studio

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值