电影级生成模型(基于Wan2.1微调):MoviiGen1.1

MoviiGen 1.1 模型速览

一、模型概述

MoviiGen 1.1 是一种前沿的视频生成模型,专注于电影美学和视觉质量。它基于 Wan2.1 模型微调而成。经过 11 位专业电影制作人和 AIGC 创作者在 60 个美学维度上的全面评估,MoviiGen 1.1 在关键电影方面展现出了卓越的性能。

二、性能特点

  1. 卓越的电影美学:在氛围营造、镜头运动和物体细节保留三个关键维度上超越竞争对手,成为专业电影应用的首选。

  2. 视觉连贯性与质量:在清晰度上比 Wan2.1 高出 14.6%,在真实感上高出 4.3%,适用于高保真场景。Wan2.1 则在流畅度和整体视觉和谐性方面表现突出,更适合强调构图、连贯性和艺术风格的任务。

  3. 全面的视觉能力:在复杂的视觉场景中提供稳定的性能,确保主体和场景的一致性,同时保持高质量的运动动态。

  4. 高质量输出:生成的视频具有非凡的清晰度和细节,支持 720P 和 1080P 分辨率,并在整个序列中保持一致的视觉质量。

  5. 专业级效果:特别适合对电影质量、视觉连贯性和美学卓越性要求极高的应用,与其他模型相比提供更优越的整体质量。

三、快速开始指南

  1. 克隆仓库:使用 Git 克隆 MoviiGen1.1 仓库。

  2. 安装依赖:安装 FastVideo 并根据指示安装要求。

  3. 模型下载:使用 huggingface-cli 下载模型。

  4. 推理:提供两种推理方式,一种是不带提示扩展,另一种是带提示扩展。还提供了一个基于 Qwen2.5-7BInstruct 模型的提示扩展模型。

四、训练框架

  1. 序列并行与环形注意力:自定义实现将时间维度分布在多个 GPU 上,减少每个设备的内存需求,同时保持模型质量。

  2. 高效数据加载:优化的数据管道,用于处理高分辨率视频帧(潜在缓存和文本嵌入缓存)。

  3. 多分辨率训练桶:支持多种分辨率训练。

  4. 混合精度训练:支持 BF16/FP16 训练以加速计算。

  5. 分布式训练:支持无缝的多节点、多 GPU 训练。

五、数据预处理

  1. 缓存视频和文本提示:将视频和相应的文本提示作为潜在变量和文本嵌入进行缓存,以优化训练过程。

  2. 数据格式:提供示例数据格式,包括 merge.txt 文件和 training_data.json 文件。

  3. 预处理脚本:提供预处理脚本以生成包含潜在变量和文本嵌入路径的 video_caption.json 文件。

六、训练脚本

  1. 单节点训练:提供 finetune.sh 脚本进行单节点训练。

  2. 多节点训练:提供 finetune_multi_node.sh 脚本进行多节点训练,并需要手动设置节点数和每个节点的进程数。

七、评估方法

论文提到进行了手动评估,但未提供详细的评估方法和指标。

八、核心技术汇总

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值