【AI大模型前沿】SkyReels-V2:昆仑万维开源的无限时长电影生成模型,开启视频生成新纪元

系列篇章💥

No.文章
1【AI大模型前沿】深度剖析瑞智病理大模型 RuiPath:如何革新癌症病理诊断技术
2【AI大模型前沿】清华大学 CLAMP-3:多模态技术引领音乐检索新潮流
3【AI大模型前沿】浙大携手阿里推出HealthGPT:医学视觉语言大模型助力智能医疗新突破
4【AI大模型前沿】阿里 QwQ-32B:320 亿参数推理大模型,性能比肩 DeepSeek-R1,免费开源
5【AI大模型前沿】TRELLIS:微软、清华、中科大联合推出的高质量3D生成模型
6【AI大模型前沿】Migician:清华、北大、华科联手打造的多图像定位大模型,一键解决安防监控与自动驾驶难题
7【AI大模型前沿】DeepSeek-V3-0324:AI 模型的全面升级与技术突破
8【AI大模型前沿】BioMedGPT-R1:清华联合水木分子打造的多模态生物医药大模型,开启智能研发新纪元
9【AI大模型前沿】DiffRhythm:西北工业大学打造的10秒铸就完整歌曲的AI歌曲生成模型
10【AI大模型前沿】R1-Omni:阿里开源全模态情感识别与强化学习的创新结合
11【AI大模型前沿】Qwen2.5-Omni:阿里巴巴的多模态大模型,实现看、听、说、写一体化
12【AI大模型前沿】SmolDocling:256M参数的轻量级多模态文档处理利器,10分钟搞定百页PDF
13【AI大模型前沿】Stable Virtual Camera:Stability AI 推出的2D图像转3D视频模型,一键生成沉浸式视频
14【AI大模型前沿】阿里 Qwen3 震撼开源,模型新王诞生,开启全球大模型新纪元
15【AI大模型前沿】InternVL:OpenGVLab开源多模态大模型,解锁视觉问答与多语言翻译的全能应用图鉴
16【AI大模型前沿】Fin-R1:上海财经大学联合财跃星辰推出的金融推理大模型,凭7B参数拿下评测第二,离行业第一仅差3分
17【AI大模型前沿】Med-R1:基于强化学习的医疗视觉语言模型,突破跨模态医学推理的普适性
18【AI大模型前沿】Baichuan-M1-14B:百川智能推出专为医疗优化的开源大语言模型
19【AI大模型前沿】一键生成宫崎骏动画风,EasyControl Ghibli 让照片秒变吉卜力艺术品
20【AI大模型前沿】TxGemma:谷歌推出的高效药物研发大模型,临床试验预测准确率超90%
21【AI大模型前沿】F5R-TTS:腾讯推出TTS领域的新王者,又快又准又自然,零样本语音克隆新高度
22【AI大模型前沿】MiniMind-V:低成本打造超小多模态视觉语言模型(仅需1.3元人民币和1小时)
23【AI大模型前沿】MoCha:端到端对话角色视频生成模型、电影级对话角色合成黑科技、重新定义动画创作
24【AI大模型前沿】HuatuoGPT-o1-7B:中英文双语医学推理,打破语言障碍的AI大模型
25【AI大模型前沿】MedReason:大规模医学推理数据集、借用知识图谱将大模型打造成“医术”专家
26【AI大模型前沿】SkyReels-V2:昆仑万维开源的无限时长电影生成模型,开启视频生成新纪元


前言

随着人工智能技术的飞速发展,视频生成领域迎来了前所未有的突破。从简单的图像生成到复杂的视频内容创作,AI 模型的能力不断提升。然而,现有的视频生成模型在提示词遵循、视觉质量、运动动态和视频时长等方面仍面临诸多挑战。为了克服这些限制,昆仑万维推出了 SkyReels-V2,这是一个基于扩散强迫(Diffusion Forcing)框架的无限时长电影生成模型。SkyReels-V2 结合了多模态大语言模型(MLLM)、多阶段预训练、强化学习等先进技术,能够生成高质量、无限时长的视频内容,为创意内容制作和虚拟仿真领域提供了强大的工具。

一、项目概述

SkyReels-V2 是昆仑万维 SkyReels 团队推出的无限时长电影生成模型,基于扩散强迫(Diffusion Forcing)框架,结合多模态大语言模型(MLLM)、多阶段预训练、强化学习等技术,生成高质量、无限时长的视频内容。该模型解决了现有技术在提示词遵循、视觉质量、运动动态和视频时长协调上的挑战,支持故事生成、图像到视频合成、摄像导演功能和多主体一致性视频生成等多种应用场景。模型及相关代码已开源,为创意内容制作和虚拟仿真领域提供强大的工具。
在这里插入图片描述

二、技术原理

(一)多模态大语言模型(MLLM)

SkyReels-V2 使用多模态大语言模型生成视频的初始描述,并结合子专家模型(如镜头类型、镜头角度、镜头位置、表情和摄像机运动等)提供更详细的镜头语言描述。通过人工标注和模型训练,进一步提升对镜头语言的理解能力,显著提高生成视频的提示词遵循能力。

(二)多阶段预训练

  1. 渐进式分辨率预训练:从低分辨率(256p)逐步提升到高分辨率(720p),逐步增强模型的生成能力。

  2. 多阶段后训练优化:包括初始概念平衡的监督微调(SFT)、运动特定的强化学习(RL)训练、扩散强迫框架(DF)训练和高质量 SFT,确保模型在不同方面达到最佳性能。

(三)强化学习(Reinforcement Learning, RL)

基于强化学习优化运动质量,解决现有模型在运动动态性、流畅性和物理合理性方面的不足。用半自动数据收集管道生成偏好对比数据对,训练奖励模型并进行直接偏好优化(DPO),提升运动质量。

(四)扩散强迫框架(Diffusion Forcing)

为每个帧分配独立的噪声水平,实现视频生成的无限扩展能力。用非递减噪声时间表,将连续帧的去噪时间表搜索空间从 (O(1e^{48})) 降低到 (O(1e^{32})),显著提高生成效率。

(五)高效的数据处理和优化

整合通用数据集、自收集媒体和艺术资源库,基于多阶段过滤和标注,确保训练数据的质量。用 FP8 量化、多 GPU 并行和模型蒸馏等技术,显著降低推理时间和计算成本,提高模型的实用性。

在这里插入图片描述

三、主要功能

(一)无限时长视频生成

SkyReels-V2 最突出的特点之一是其能够生成理论上无限长的视频内容。这一功能突破了传统视频生成模型在时长上的限制,使得创作者可以生成任意长度的视频,而不再受限于模型的固有约束。这为长篇叙事、连续场景的创作提供了极大的灵活性,无论是电影、电视剧还是其他长视频内容,都可以通过 SkyReels-V2 实现高质量的生成。

(二)故事生成

SkyReels-V2 不仅能够生成视频,还能根据叙事文本提示编排复杂多动作序列,实现动态叙事。这意味着用户可以通过输入详细的文本描述,如故事的情节、角色的动作和情感变化,来指导模型生成连贯的视频内容。

(三)图像到视频合成

SkyReels-V2 提供了两种方法,包括微调全序列文本到视频扩散模型(SkyReels-V2-I2V)和扩散强迫模型与帧条件结合(SkyReels-V2-DF),将静态图像转化为连贯的视频。

(四)摄像导演功能

SkyReels-V2 支持生成流畅且多样化的摄像机运动效果,提升视频的影视感。这一功能使得模型可以模拟各种摄像机运动,如平移、旋转、缩放等,从而生成具有专业影视感的视频内容。

(五)元素到视频生成

SkyReels-V2 还支持将任意视觉元素(如人物、物体和背景)组合成由文本提示引导的连贯视频。这一功能特别适合短剧、音乐视频和虚拟电商内容创作等应用。

四、应用场景

(一)电影制作

电影制作中,长镜头和复杂叙事是提升故事连贯性和观众沉浸感的关键。SkyReels-V2 能够生成无限时长的连贯视频,支持从开场到结尾的完整叙事。

例如,生成一个长达数分钟的长镜头,展示主角从城市街道走进一个神秘的古堡,镜头流畅地跟随主角的行动,同时捕捉周围环境的变化。

(二)广告创作

广告中,动态视频比静态图片更能吸引观众的注意力。SkyReels-V2 可以将静态图片转化为生动的视频内容,增强广告的吸引力和表现力。

例如,将一张展示新款汽车的静态图片转化为一个视频,展示其新款电动汽车在城市街道上行驶的场景。视频中,汽车在不同的街道和环境中穿梭,展示了其性能和设计特点,极大地提升了广告的效果。

(三)视频拍摄辅助

在视频拍摄中,流畅的摄像机运动效果是提升视频质量的重要因素。SkyReels-V2 可以生成各种摄像机运动效果,帮助导演设计和实现复杂的拍摄镜头。

例如,生成一个从高处俯瞰城市的镜头,然后平滑过渡到街道上的特写镜头,展示了城市的繁华和活力。这种流畅的镜头过渡不仅提升了视频的视觉效果,还为导演提供了更多的创意空间。

(四)短剧和音乐视频

短剧和音乐视频的创意内容生成是吸引观众的关键。SkyReels-V2 可以根据文本描述生成相应的视频内容,帮助创作者快速实现创意想法。

例如,在一部音乐视频的制作中,SkyReels-V2 生成了一个场景,展示歌手在舞台上的表演和观众的热烈反应。视频中,歌手的表演充满激情,观众的反应热烈,极大地提升了音乐视频的吸引力。

(五)虚拟现实和游戏开发

虚拟现实和游戏开发中,逼真的虚拟场景和角色动画是提升用户体验和沉浸感的关键。SkyReels-V2 可以生成高质量的虚拟场景和角色动画,帮助开发者快速实现创意想法。

例如,在一款虚拟现实游戏的开发中,SkyReels-V2 生成了一个虚拟游戏世界的场景,包括游戏地图、角色和道具。这些生成的视频不仅提升了游戏的视觉效果,还为开发者提供了高质量的素材,加快了开发进度。

五、快速使用

(一)安装环境

克隆项目代码:

git clone https://github.com/SkyworkAI/SkyReels-V2.git
cd SkyReels-V2

安装依赖:

pip install -r requirements.txt

(二)下载模型

从 Hugging Face 下载模型权重:

git clone https://huggingface.co/Skywork/SkyReels-V2-T2V-14B-540P

(三)单 GPU 推理

扩散强迫(Diffusion Forcing)生成无限时长视频

model_id=Skywork/SkyReels-V2-DF-14B-540P
python3 generate_video_df.py \
 --model_id ${model_id} \
 --resolution 540P \
 --ar_step 0 \
 --base_num_frames 97 \
 --num_frames 257 \
 --overlap_history 17 \
 --prompt "A graceful white swan with a curved neck and delicate feathers swimming in a serene lake at dawn, its reflection perfectly mirrored in the still water as mist rises from the surface, with the swan occasionally dipping its head into the water to feed." \
 --addnoise_condition 20 \
 --offload

文本到视频(Text-to-Video)生成

model_id=Skywork/SkyReels-V2-T2V-14B-540P
python3 generate_video.py \
  --model_id ${model_id} \
  --resolution 540P \
  --num_frames 97 \
  --guidance_scale 6.0 \
  --shift 8.0 \
  --fps 24 \
  --prompt "A serene lake surrounded by towering mountains, with a few swans gracefully gliding across the water and sunlight dancing on the surface." \
  --offload

(四)多 GPU 推理

使用 xDiT USP 加速推理:

torchrun --nproc_per_node=2 generate_video_df.py \
  --model_id ${model_id} \
  --resolution 540P \
  --ar_step 0 \
  --base_num_frames 97 \
  --num_frames 257 \
  --overlap_history 17 \
  --prompt "A graceful white swan with a curved neck and delicate feathers swimming in a serene lake at dawn, its reflection perfectly mirrored in the still water as mist rises from the surface, with the swan occasionally dipping its head into the water to feed." \
   --addnoise_condition 20 \
   --use_usp \
   --offload \
   --seed 42

六、结语

SkyReels-V2 作为昆仑万维开源的无限时长电影生成模型,通过创新的扩散强迫框架和多模态大语言模型技术,为视频生成领域带来了新的突破。它不仅在生成效率和数据质量上表现出色,还大幅降低了数据生成成本。SkyReels-V2 的开源为研究人员和开发者提供了一个强大的工具,用于探索创意内容制作和虚拟仿真中的多样化应用。未来,随着技术的不断进步,SkyReels-V2 有望在更多领域发挥重要作用。

七、项目地址

  • GitHub 仓库:https://github.com/SkyworkAI/SkyReels-V2
  • arXiv 技术论文:https://arxiv.org/pdf/2504.13074
  • Hugging Face 模型库:https://huggingface.co/collections/Skywork/skyreels-v2

在这里插入图片描述

🎯🔖更多专栏系列文章:AI大模型提示工程完全指南AI大模型探索之路(零基础入门)AI大模型预训练微调进阶AI大模型开源精选实践AI大模型RAG应用探索实践🔥🔥🔥 其他专栏可以查看博客主页📑

😎 作者介绍:资深程序老猿,从业10年+、互联网系统架构师,目前专注于AIGC的探索(CSDN博客之星|AIGC领域优质创作者)
📖专属社群:欢迎关注【小兵的AI视界】公众号或扫描下方👇二维码,回复‘入群’ 即刻上车,获取邀请链接。
💘领取三大专属福利:1️⃣免费赠送AI+编程📚500本,2️⃣AI技术教程副业资料1套,3️⃣DeepSeek资料教程1套🔥(限前500人)
如果文章内容对您有所触动,别忘了点赞、⭐关注,收藏!加入我们,一起携手同行AI的探索之旅,开启智能时代的大门!

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

寻道AI小兵

🐳 感谢你的巨浪支持!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值