哔哩哔哩推出开源动漫视频生成模型速读：Index-AniSora

最新推荐文章于 2025-05-23 10:18:27 发布

Open-source-AI

最新推荐文章于 2025-05-23 10:18:27 发布

阅读量734

点赞数 19

分类专栏：前沿文章标签：人工智能生成模型大模型开源算法文生视频

本文链接：https://blog.csdn.net/weixin_52582710/article/details/148082051

版权

前沿专栏收录该内容

154 篇文章

订阅专栏

Index-AniSora 模型速读

一、项目概述

Index-AniSora 是由哔哩哔哩推出的开源动漫视频生成模型，旨在实现一键式跨多种动漫风格的视频创作，包括系列剧集、中国原创动画、漫画改编、虚拟主播内容、动漫 PV 和鬼畜风格动画等。该项目基于 IJCAI’25 接受的工作 AniSora 开发，提供完整的训练和推理代码，并支持在 RTX 4090 上经济高效的部署。

Index-AniSora 的开发团队强调其开源特性，所有构建内容均对外公开。项目自2024年12月首次在 arXiv 上提交论文并发布项目及评估基准以来，持续进行更新与优化。目前，AniSoraV2.0 版本正在开发中，预计将在5月底前推出。

二、技术架构

模型训练基础

Index-AniSora 的早期版本基于 CogVideoX-5B 基础模型训练，而后续版本则采用增强型 Wan2.1-14B 基础模型，从而显著提升生成视频的稳定性，同时通过蒸馏加速推理过程，实现更快且成本更低的视频生成。

视频控制技术

区域指导（Localized region guidance）：实现对视频特定区域的精确控制，使生成视频更符合预期效果。
时序指导（Temporal guidance）：包括首尾帧指导、关键帧插值和多帧指导，增强视频的连贯性和逻辑性。

设备适配性

AniSoraV1.0 支持 Nvidia GPU 训练。
AniSoraV2.0 原生支持华为昇腾910B NPUs，且完全基于国产芯片进行训练，扩大了模型在不同硬件环境下的适用范围。

三、数据集与评估

数据集构建

Index-AniSora 配备了端到端的数据集管道，用于快速扩展训练数据。其动画数据清理管道能够有效提升数据质量，确保模型训练的基础数据可靠性。项目还收集了948个不同动作的动画视频片段，构成评估基准数据集，每个标签包含10-30个视频片段，并通过 Qwen-VL2 生成初始文本提示后进行人工校正，以保证文本与视频的一致性。

评估体系

自动化评估模型：包括适合强化学习和基准测试的奖励模型，以及针对动画生成的定制化评估框架。
人类偏好对齐：通过与 ACG 美学标准对齐的测试数据集，进行人类双盲测试，验证模型生成视频在角色和动作一致性方面的表现。

四、模型性能

Vbench 评估结果

方法	运动流畅度	运动分数	美学质量	成像质量	图像转视频主体	图像转视频背景	总体一致性
Opensora Plan(V1.3)	99.13	76.45	53.21	65.11	93.53	94.71	21.67
Opensora(V1.2)	98.78	73.62	54.30	68.44	93.15	91.09	22.68
Vidu	97.71	77.51	53.68	69.23	92.25	93.06	20.87
Covideo(5B V1)	97.67	71.47	54.87	68.16	90.68	91.79	21.87
MiniMax	99.20	66.53	54.56	71.67	95.95	95.42	21.82
AniSora	99.34	45.59	54.31	70.58	97.52	95.04	21.15

AniSora 基准评估结果

方法	人类评估	视觉流畅	视觉运动	视觉吸引力	文本-视频一致性	图像-视频一致性	角色一致性
Vidu-1.5	60.98	55.37	78.95	50.68	60.71	66.85	82.57
Opensora V1.2	41.10	22.28	74.90	22.62	52.19	55.67	74.76
Opensora Plan-V1.3	46.14	35.08	77.47	36.14	56.19	59.42	81.19
CovideoX 5B-V1	53.29	39.91	73.07	39.59	67.98	65.49	83.07
MiniMax I2V01	69.63	69.38	68.05	70.34	76.14	78.74	89.47
AniSora (Ours)	70.13	71.47	47.94	64.44	72.92	81.54	94.54