【AI大模型前沿】SkyReels-V2：昆仑万维开源的无限时长电影生成模型，开启视频生成新纪元-CSDN博客

本文链接：https://blog.csdn.net/xiaobing259/article/details/148338424

系列篇章💥

No.	文章
1	【AI大模型前沿】深度剖析瑞智病理大模型 RuiPath：如何革新癌症病理诊断技术
2	【AI大模型前沿】清华大学 CLAMP-3：多模态技术引领音乐检索新潮流
3	【AI大模型前沿】浙大携手阿里推出HealthGPT：医学视觉语言大模型助力智能医疗新突破
4	【AI大模型前沿】阿里 QwQ-32B：320 亿参数推理大模型，性能比肩 DeepSeek-R1，免费开源
5	【AI大模型前沿】TRELLIS：微软、清华、中科大联合推出的高质量3D生成模型
6	【AI大模型前沿】Migician：清华、北大、华科联手打造的多图像定位大模型，一键解决安防监控与自动驾驶难题
7	【AI大模型前沿】DeepSeek-V3-0324：AI 模型的全面升级与技术突破
8	【AI大模型前沿】BioMedGPT-R1：清华联合水木分子打造的多模态生物医药大模型，开启智能研发新纪元
9	【AI大模型前沿】DiffRhythm：西北工业大学打造的10秒铸就完整歌曲的AI歌曲生成模型
10	【AI大模型前沿】R1-Omni：阿里开源全模态情感识别与强化学习的创新结合
11	【AI大模型前沿】Qwen2.5-Omni：阿里巴巴的多模态大模型，实现看、听、说、写一体化
12	【AI大模型前沿】SmolDocling：256M参数的轻量级多模态文档处理利器，10分钟搞定百页PDF
13	【AI大模型前沿】Stable Virtual Camera：Stability AI 推出的2D图像转3D视频模型，一键生成沉浸式视频
14	【AI大模型前沿】阿里 Qwen3 震撼开源，模型新王诞生，开启全球大模型新纪元
15	【AI大模型前沿】InternVL：OpenGVLab开源多模态大模型，解锁视觉问答与多语言翻译的全能应用图鉴
16	【AI大模型前沿】Fin-R1：上海财经大学联合财跃星辰推出的金融推理大模型，凭7B参数拿下评测第二，离行业第一仅差3分
17	【AI大模型前沿】Med-R1：基于强化学习的医疗视觉语言模型，突破跨模态医学推理的普适性
18	【AI大模型前沿】Baichuan-M1-14B：百川智能推出专为医疗优化的开源大语言模型
19	【AI大模型前沿】一键生成宫崎骏动画风，EasyControl Ghibli 让照片秒变吉卜力艺术品
20	【AI大模型前沿】TxGemma：谷歌推出的高效药物研发大模型，临床试验预测准确率超90%
21	【AI大模型前沿】F5R-TTS：腾讯推出TTS领域的新王者，又快又准又自然，零样本语音克隆新高度
22	【AI大模型前沿】MiniMind-V：低成本打造超小多模态视觉语言模型（仅需1.3元人民币和1小时）
23	【AI大模型前沿】MoCha：端到端对话角色视频生成模型、电影级对话角色合成黑科技、重新定义动画创作
24	【AI大模型前沿】HuatuoGPT-o1-7B：中英文双语医学推理，打破语言障碍的AI大模型
25	【AI大模型前沿】MedReason：大规模医学推理数据集、借用知识图谱将大模型打造成“医术”专家
26	【AI大模型前沿】SkyReels-V2：昆仑万维开源的无限时长电影生成模型，开启视频生成新纪元

前言

随着人工智能技术的飞速发展，视频生成领域迎来了前所未有的突破。从简单的图像生成到复杂的视频内容创作，AI 模型的能力不断提升。然而，现有的视频生成模型在提示词遵循、视觉质量、运动动态和视频时长等方面仍面临诸多挑战。为了克服这些限制，昆仑万维推出了 SkyReels-V2，这是一个基于扩散强迫（Diffusion Forcing）框架的无限时长电影生成模型。SkyReels-V2 结合了多模态大语言模型（MLLM）、多阶段预训练、强化学习等先进技术，能够生成高质量、无限时长的视频内容，为创意内容制作和虚拟仿真领域提供了强大的工具。

一、项目概述

SkyReels-V2 是昆仑万维 SkyReels 团队推出的无限时长电影生成模型，基于扩散强迫（Diffusion Forcing）框架，结合多模态大语言模型（MLLM）、多阶段预训练、强化学习等技术，生成高质量、无限时长的视频内容。该模型解决了现有技术在提示词遵循、视觉质量、运动动态和视频时长协调上的挑战，支持故事生成、图像到视频合成、摄像导演功能和多主体一致性视频生成等多种应用场景。模型及相关代码已开源，为创意内容制作和虚拟仿真领域提供强大的工具。
在这里插入图片描述

二、技术原理

（一）多模态大语言模型（MLLM）

SkyReels-V2 使用多模态大语言模型生成视频的初始描述，并结合子专家模型（如镜头类型、镜头角度、镜头位置、表情和摄像机运动等）提供更详细的镜头语言描述。通过人工标注和模型训练，进一步提升对镜头语言的理解能力，显著提高生成视频的提示词遵循能力。

（二）多阶段预训练

渐进式分辨率预训练：从低分辨率（256p）逐步提升到高分辨率（720p），逐步增强模型的生成能力。
多阶段后训练优化：包括初始概念平衡的监督微调（SFT）、运动特定的强化学习（RL）训练、扩散强迫框架（DF）训练和高质量 SFT，确保模型在不同方面达到最佳性能。

（三）强化学习（Reinforcement Learning, RL）

基于强化学习优化运动质量，解决现有模型在运动动态性、流畅性和物理合理性方面的不足。用半自动数据收集管道生成偏好对比数据对，训练奖励模型并进行直接偏好优化（DPO），提升运动质量。

（四）扩散强迫框架（Diffusion Forcing）

为每个帧分配独立的噪声水平，实现视频生成的无限扩展能力。用非递减噪声时间表，将连续帧的去噪时间表搜索空间从 (O(1e^{48})) 降低到 (O(1e^{32}))，显著提高生成效率。

（五）高效的数据处理和优化

整合通用数据集、自收集媒体和艺术资源库，基于多阶段过滤和标注，确保训练数据的质量。用 FP8 量化、多 GPU 并行和模型蒸馏等技术，显著降低推理时间和计算成本，提高模型的实用性。

在这里插入图片描述

三、主要功能

（一）无限时长视频生成

SkyReels-V2 最突出的特点之一是其能够生成理论上无限长的视频内容。这一功能突破了传统视频生成模型在时长上的限制，使得创作者可以生成任意长度的视频，而不再受限于模型的固有约束。这为长篇叙事、连续场景的创作提供了极大的灵活性，无论是电影、电视剧还是其他长视频内容，都可以通过 SkyReels-V2 实现高质量的生成。

（二）故事生成

SkyReels-V2 不仅能够生成视频，还能根据叙事文本提示编排复杂多动作序列，实现动态叙事。这意味着用户可以通过输入详细的文本描述，如故事的情节、角色的动作和情感变化，来指导模型生成连贯的视频内容。

（三）图像到视频合成

SkyReels-V2 提供了两种方法，包括微调全序列文本到视频扩散模型（SkyReels-V2-I2V）和扩散强迫模型与帧条件结合（SkyReels-V2-DF），将静态图像转化为连贯的视频。

（四）摄像导演功能

SkyReels-V2 支持生成流畅且多样化的摄像机运动效果，提升视频的影视感。这一功能使得模型可以模拟各种摄像机运动，如平移、旋转、缩放等，从而生成具有专业影视感的视频内容。

（五）元素到视频生成

SkyReels-V2 还支持将任意视觉元素（如人物、物体和背景）组合成由文本提示引导的连贯视频。这一功能特别适合短剧、音乐视频和虚拟电商内容创作等应用。

四、应用场景

（一）电影制作

电影制作中，长镜头和复杂叙事是提升故事连贯性和观众沉浸感的关键。SkyReels-V2 能够生成无限时长的连贯视频，支持从开场到结尾的完整叙事。

例如，生成一个长达数分钟的长镜头，展示主角从城市街道走进一个神秘的古堡，镜头流畅地跟随主角的行动，同时捕捉周围环境的变化。

（二）广告创作

广告中，动态视频比静态图片更能吸引观众的注意力。SkyReels-V2 可以将静态图片转化为生动的视频内容，增强广告的吸引力和表现力。

例如，将一张展示新款汽车的静态图片转化为一个视频，展示其新款电动汽车在城市街道上行驶的场景。视频中，汽车在不同的街道和环境中穿梭，展示了其性能和设计特点，极大地提升了广告的效果。

（三）视频拍摄辅助

在视频拍摄中，流畅的摄像机运动效果是提升视频质量的重要因素。SkyReels-V2 可以生成各种摄像机运动效果，帮助导演设计和实现复杂的拍摄镜头。

例如，生成一个从高处俯瞰城市的镜头，然后平滑过渡到街道上的特写镜头，展示了城市的繁华和活力。这种流畅的镜头过渡不仅提升了视频的视觉效果，还为导演提供了更多的创意空间。

（四）短剧和音乐视频

短剧和音乐视频的创意内容生成是吸引观众的关键。SkyReels-V2 可以根据文本描述生成相应的视频内容，帮助创作者快速实现创意想法。

例如，在一部音乐视频的制作中，SkyReels-V2 生成了一个场景，展示歌手在舞台上的表演和观众的热烈反应。视频中，歌手的表演充满激情，观众的反应热烈，极大地提升了音乐视频的吸引力。

（五）虚拟现实和游戏开发

虚拟现实和游戏开发中，逼真的虚拟场景和角色动画是提升用户体验和沉浸感的关键。SkyReels-V2 可以生成高质量的虚拟场景和角色动画，帮助开发者快速实现创意想法。

例如，在一款虚拟现实游戏的开发中，SkyReels-V2 生成了一个虚拟游戏世界的场景，包括游戏地图、角色和道具。这些生成的视频不仅提升了游戏的视觉效果，还为开发者提供了高质量的素材，加快了开发进度。

五、快速使用

（一）安装环境

克隆项目代码：

git clone https://github.com/SkyworkAI/SkyReels-V2.git
cd SkyReels-V2

安装依赖：

pip install -r requirements.txt

（二）下载模型

从 Hugging Face 下载模型权重：

git clone https://huggingface.co/Skywork/SkyReels-V2-T2V-14B-540P

（三）单 GPU 推理

扩散强迫（Diffusion Forcing）生成无限时长视频：

model_id=Skywork/SkyReels-V2-DF-14B-540P
python3 generate_video_df.py \
 --model_id ${model_id} \
 --resolution 540P \
 --ar_step 0 \
 --base_num_frames 97 \
 --num_frames 257 \
 --overlap_history 17 \
 --prompt "A graceful white swan with a curved neck and delicate feathers swimming in a serene lake at dawn, its reflection perfectly mirrored in the still water as mist rises from the surface, with the swan occasionally dipping its head into the water to feed." \
 --addnoise_condition 20 \
 --offload

文本到视频（Text-to-Video）生成：

model_id=Skywork/SkyReels-V2-T2V-14B-540P
python3 generate_video.py \
  --model_id ${model_id} \
  --resolution 540P \
  --num_frames 97 \
  --guidance_scale 6.0 \
  --shift 8.0 \
  --fps 24 \
  --prompt "A serene lake surrounded by towering mountains, with a few swans gracefully gliding across the water and sunlight dancing on the surface." \
  --offload

（四）多 GPU 推理

使用 xDiT USP 加速推理：

torchrun --nproc_per_node=2 generate_video_df.py \
  --model_id ${model_id} \
  --resolution 540P \
  --ar_step 0 \
  --base_num_frames 97 \
  --num_frames 257 \
  --overlap_history 17 \
  --prompt "A graceful white swan with a curved neck and delicate feathers swimming in a serene lake at dawn, its reflection perfectly mirrored in the still water as mist rises from the surface, with the swan occasionally dipping its head into the water to feed." \
   --addnoise_condition 20 \
   --use_usp \
   --offload \
   --seed 42

六、结语

SkyReels-V2 作为昆仑万维开源的无限时长电影生成模型，通过创新的扩散强迫框架和多模态大语言模型技术，为视频生成领域带来了新的突破。它不仅在生成效率和数据质量上表现出色，还大幅降低了数据生成成本。SkyReels-V2 的开源为研究人员和开发者提供了一个强大的工具，用于探索创意内容制作和虚拟仿真中的多样化应用。未来，随着技术的不断进步，SkyReels-V2 有望在更多领域发挥重要作用。

七、项目地址

GitHub 仓库：https://github.com/SkyworkAI/SkyReels-V2
arXiv 技术论文：https://arxiv.org/pdf/2504.13074
Hugging Face 模型库：https://huggingface.co/collections/Skywork/skyreels-v2

在这里插入图片描述

😎 作者介绍：资深程序老猿，从业10年+、互联网系统架构师，目前专注于AIGC的探索（CSDN博客之星|AIGC领域优质创作者）
📖专属社群：欢迎关注【小兵的AI视界】公众号或扫描下方👇二维码，回复‘入群’ 即刻上车，获取邀请链接。
💘领取三大专属福利：1️⃣免费赠送AI+编程📚500本，2️⃣AI技术教程副业资料1套，3️⃣DeepSeek资料教程1套🔥（限前500人）
如果文章内容对您有所触动，别忘了点赞、⭐关注，收藏！加入我们，一起携手同行AI的探索之旅，开启智能时代的大门！