MoviiGen 1.1 模型速览
一、模型概述
MoviiGen 1.1 是一种前沿的视频生成模型,专注于电影美学和视觉质量。它基于 Wan2.1 模型微调而成。经过 11 位专业电影制作人和 AIGC 创作者在 60 个美学维度上的全面评估,MoviiGen 1.1 在关键电影方面展现出了卓越的性能。
二、性能特点
-
卓越的电影美学:在氛围营造、镜头运动和物体细节保留三个关键维度上超越竞争对手,成为专业电影应用的首选。
-
视觉连贯性与质量:在清晰度上比 Wan2.1 高出 14.6%,在真实感上高出 4.3%,适用于高保真场景。Wan2.1 则在流畅度和整体视觉和谐性方面表现突出,更适合强调构图、连贯性和艺术风格的任务。
-
全面的视觉能力:在复杂的视觉场景中提供稳定的性能,确保主体和场景的一致性,同时保持高质量的运动动态。
-
高质量输出:生成的视频具有非凡的清晰度和细节,支持 720P 和 1080P 分辨率,并在整个序列中保持一致的视觉质量。
-
专业级效果:特别适合对电影质量、视觉连贯性和美学卓越性要求极高的应用,与其他模型相比提供更优越的整体质量。
三、快速开始指南
-
克隆仓库:使用 Git 克隆 MoviiGen1.1 仓库。
-
安装依赖:安装 FastVideo 并根据指示安装要求。
-
模型下载:使用 huggingface-cli 下载模型。
-
推理:提供两种推理方式,一种是不带提示扩展,另一种是带提示扩展。还提供了一个基于 Qwen2.5-7BInstruct 模型的提示扩展模型。
四、训练框架
-
序列并行与环形注意力:自定义实现将时间维度分布在多个 GPU 上,减少每个设备的内存需求,同时保持模型质量。
-
高效数据加载:优化的数据管道,用于处理高分辨率视频帧(潜在缓存和文本嵌入缓存)。
-
多分辨率训练桶:支持多种分辨率训练。
-
混合精度训练:支持 BF16/FP16 训练以加速计算。
-
分布式训练:支持无缝的多节点、多 GPU 训练。
五、数据预处理
-
缓存视频和文本提示:将视频和相应的文本提示作为潜在变量和文本嵌入进行缓存,以优化训练过程。
-
数据格式:提供示例数据格式,包括 merge.txt 文件和 training_data.json 文件。
-
预处理脚本:提供预处理脚本以生成包含潜在变量和文本嵌入路径的 video_caption.json 文件。
六、训练脚本
-
单节点训练:提供 finetune.sh 脚本进行单节点训练。
-
多节点训练:提供 finetune_multi_node.sh 脚本进行多节点训练,并需要手动设置节点数和每个节点的进程数。
七、评估方法
论文提到进行了手动评估,但未提供详细的评估方法和指标。