Index-AniSora 模型速读
一、项目概述
Index-AniSora 是由哔哩哔哩推出的开源动漫视频生成模型,旨在实现一键式跨多种动漫风格的视频创作,包括系列剧集、中国原创动画、漫画改编、虚拟主播内容、动漫 PV 和鬼畜风格动画等。该项目基于 IJCAI’25 接受的工作 AniSora 开发,提供完整的训练和推理代码,并支持在 RTX 4090 上经济高效的部署。
Index-AniSora 的开发团队强调其开源特性,所有构建内容均对外公开。项目自2024年12月首次在 arXiv 上提交论文并发布项目及评估基准以来,持续进行更新与优化。目前,AniSoraV2.0 版本正在开发中,预计将在5月底前推出。
二、技术架构
模型训练基础
Index-AniSora 的早期版本基于 CogVideoX-5B 基础模型训练,而后续版本则采用增强型 Wan2.1-14B 基础模型,从而显著提升生成视频的稳定性,同时通过蒸馏加速推理过程,实现更快且成本更低的视频生成。
视频控制技术
-
区域指导(Localized region guidance):实现对视频特定区域的精确控制,使生成视频更符合预期效果。
-
时序指导(Temporal guidance):包括首尾帧指导、关键帧插值和多帧指导,增强视频的连贯性和逻辑性。
设备适配性
-
AniSoraV1.0 支持 Nvidia GPU 训练。
-
AniSoraV2.0 原生支持华为昇腾910B NPUs,且完全基于国产芯片进行训练,扩大了模型在不同硬件环境下的适用范围。
三、数据集与评估
数据集构建
Index-AniSora 配备了端到端的数据集管道,用于快速扩展训练数据。其动画数据清理管道能够有效提升数据质量,确保模型训练的基础数据可靠性。项目还收集了948个不同动作的动画视频片段,构成评估基准数据集,每个标签包含10-30个视频片段,并通过 Qwen-VL2 生成初始文本提示后进行人工校正,以保证文本与视频的一致性。
评估体系
-
自动化评估模型:包括适合强化学习和基准测试的奖励模型,以及针对动画生成的定制化评估框架。
-
人类偏好对齐:通过与 ACG 美学标准对齐的测试数据集,进行人类双盲测试,验证模型生成视频在角色和动作一致性方面的表现。
四、模型性能
Vbench 评估结果
方法 | 运动流畅度 | 运动分数 | 美学质量 | 成像质量 | 图像转视频主体 | 图像转视频背景 | 总体一致性 |
---|---|---|---|---|---|---|---|
Opensora Plan(V1.3) | 99.13 | 76.45 | 53.21 | 65.11 | 93.53 | 94.71 | 21.67 |
Opensora(V1.2) | 98.78 | 73.62 | 54.30 | 68.44 | 93.15 | 91.09 | 22.68 |
Vidu | 97.71 | 77.51 | 53.68 | 69.23 | 92.25 | 93.06 | 20.87 |
Covideo(5B V1) | 97.67 | 71.47 | 54.87 | 68.16 | 90.68 | 91.79 | 21.87 |
MiniMax | 99.20 | 66.53 | 54.56 | 71.67 | 95.95 | 95.42 | 21.82 |
AniSora | 99.34 | 45.59 | 54.31 | 70.58 | 97.52 | 95.04 | 21.15 |
AniSora 基准评估结果
方法 | 人类评估 | 视觉流畅 | 视觉运动 | 视觉吸引力 | 文本-视频一致性 | 图像-视频一致性 | 角色一致性 |
---|---|---|---|---|---|---|---|
Vidu-1.5 | 60.98 | 55.37 | 78.95 | 50.68 | 60.71 | 66.85 | 82.57 |
Opensora V1.2 | 41.10 | 22.28 | 74.90 | 22.62 | 52.19 | 55.67 | 74.76 |
Opensora Plan-V1.3 | 46.14 | 35.08 | 77.47 | 36.14 | 56.19 | 59.42 | 81.19 |
CovideoX 5B-V1 | 53.29 | 39.91 | 73.07 | 39.59 | 67.98 | 65.49 | 83.07 |
MiniMax I2V01 | 69.63 | 69.38 | 68.05 | 70.34 | 76.14 | 78.74 | 89.47 |
AniSora (Ours) | 70.13 | 71.47 | 47.94 | 64.44 | 72.92 | 81.54 | 94.54 |
五、应用场景
Index-AniSora 覆盖了超过90%的应用场景,能够生成高质量的视频镜头,包括但不限于:
-
动漫剧集制作
-
中国原创动画开发
-
漫画内容改编
-
虚拟主播素材创作
-
动漫宣传视频(PV)制作
-
鬼畜风格动画创作
其强大的可控性使创作者能够通过图像到视频生成、帧插值和局部图像引导动画等功能,实现精准的创意表达。
六、未来展望
Index-AniSora 项目团队计划持续优化模型性能,特别是在 AniSoraV2.0 版本中进一步提升14B版本模型的能力。团队还致力于完善动画视频生成的评价体系,并探索强化学习从人类反馈(RLHF)框架在动画视频生成中的应用,以实现更符合人类偏好的动画风格输出。