视频生成大模型分类盘点和原理说明

当前的视频生成大模型的研究正在快速发展,尤其是基于深度学习的生成模型。视频生成技术主要是指通过模型生成视频内容,通常需要处理图像生成、时序建模、运动模拟和场景理解等多个方面。视频生成的任务包括从零生成视频、视频编辑、视频增强等。

视频生成大模型分类

视频生成大模型可以根据任务目标、输入方式以及模型架构的不同,分为以下几类:

1.基于生成对抗网络(GANs)的视频生成模型
生成对抗网络(GANs)被广泛应用于图像和视频生成任务。其基本原理是通过两个网络——生成器和判别器——进行对抗训练,使得生成器能够产生逼真的图像或视频,判别器则用来区分生成的内容与真实内容。

代表模型有:

  • MoCoGAN(Motion-Content GAN):MoCoGAN模型首先分解视频为运动和内容两个部分,其中内容部分生成静态图像,运动部分生成动态变化序列。MoCoGAN使用两个网络来分别学习这两个部分,生成逼真的视频内容。
  • TGAN(Temporal GAN):TGAN引入了时间维度建模的思想,通过生成与时间相关的帧序列来生成视频,强化了时序上的一致性。
  • VideoGAN:该模型利用对抗网络和卷积神经网络生成高质量的视频,通过深度学习技术生成具有时序信息的视频。

2.基于变分自编码器(VAE)的视频生成模型
变分自编码器(VAE)是一种生成模型,通过最大化变分下界(ELBO)来逼近数据分布。与GAN相比,VAE采用概率图模型来生成数据,因此它的生成效果更加稳定,并且具有更好的训练收敛性。

代表模型:

  • VGAN(Variational GAN):结合VAE和GAN的优势,通过引入变分推断来约束生成器的学习过程,使其能够生成更加平滑且稳定的视频。
  • VQ-VAE-2:VQ-VAE-2采用了向量量化的技术,可以高效地表示视频帧的离散特征,并且能够在时间维度上生成连贯的视频序列。VQ-VAE-2不仅能生成静态图像,还能够生成视频。

3.基于时序建模(Temporal Modeling)的视频生成模型
视频作为一个连续的时序数据,时序建模是视频生成中的重要部分。利用时序建模可以有效地捕捉视频帧之间的长期依赖关系,从而生成更为真实的动态视频。

代表模型:

  • ConvLSTM:ConvLSTM(卷积长短期记忆网络)是一种结合了卷积神经网络(CNN)和LSTM(长短期记忆网络)的方法,用于处理视频数据。通过将卷积层与LSTM相结合,ConvLSTM能够有效地捕捉图像的空间特征和视频帧之间的时序信息。
  • 3D CNN:3D卷积神经网络通过将时间维度加入到卷积操作中,可以捕捉视频中的时空特征,广泛应用于视频生成、视频分类和视频预测等任务。

4.基于自回归模型的视频生成模型
自回归模型是一类通过递归方式逐帧生成视频的方法。这些模型通常通过将生成的每一帧作为下一帧的输入,逐步生成整个视频。

代表模型:

  • PixelSNAIL:PixelSNAIL是一种基于卷积神经网络和自回归结构的生成模型,能够生成高度真实的视频序列。其核心思想是通过递归方式逐帧生成图像,并通过条件概率建模保持图像的连贯性。
  • CPC(Contrastive Predictive Coding):CPC模型通过对未来帧进行对比预测来训练自回归生成模型,能够在生成过程中考虑视频帧之间的时序关系。

5.基于条件生成的模型(Conditional Models)
条件生成模型通常会接受附加的条件输入(如文字描述、图像或其他信息),并根据这些条件生成视频。这类模型能够根据用户的需求生成特定风格或特定情境下的视频内容。

代表模型:

  • Text-to-Video Generation:这些模型接受文本描述作为输入,生成符合描述的视频。例如,结合语言理解与视觉生成能力的模型可以基于简单的文字提示生成特定内容的视频。比如OpenAI的DALL·E系列可以生成图像,未来的类似技术会扩展到生成视频。
  • Semantic Conditional Generation:这种方法通过输入语义信息(例如特定的动作、人物或场景)来指导视频生成,以确保生成的内容与输入条件一致。

视频生成模型的原理

1.生成对抗网络(GANs)原理
生成对抗网络由两个模型组成:生成器和判别器。生成器通过接受随机噪声输入生成数据,而判别器的任务是区分生成器生成的数据与真实数据。两者通过对抗训练相互博弈,最终使得生成器能够生成非常逼真的视频或图像。

生成器:接受一个随机噪声向量z,通过神经网络映射到视频空间中,生成一个视频帧。
判别器:接受生成的视频帧和真实的视频帧,判断生成的视频是否与真实视频相似。
通过这种对抗训练,生成器逐渐优化生成的视频质量,使得判别器无法分辨生成的视频与真实视频之间的差异。

2.变分自编码器(VAE)原理
变分自编码器通过引入潜在变量模型,学习输入数据的概率分布。VAE将输入数据映射到潜在空间中的一个概率分布,然后从中采样并生成新的数据。与传统的自编码器不同,VAE优化的是潜在变量的概率分布。

编码器:将输入视频数据映射到潜在空间。
解码器:从潜在空间中采样,并重构出视频数据。
VAE通过最大化变分下界(ELBO)来训练,确保生成的视频数据能够与真实视频数据相似。

3.时序建模原理
时序建模的核心思想是通过神经网络捕捉时间序列数据中的时空关系。对于视频生成,时序建模能够理解视频帧之间的动态变化,并确保生成的视频有连贯性和一致性。

常用方法:

  • RNN/LSTM:可以通过循环神经网络(RNN)或长短期记忆网络(LSTM)来处理视频的时序信息。通过捕捉视频帧之间的长期依赖关系,生成连续、合理的视频序列。
  • 3D CNN:3D卷积操作不仅关注图像的空间维度,还包括时间维度,能够捕捉视频中的动态变化。

4.自回归模型原理
自回归模型通过递归地生成每一帧图像,并将每一帧图像作为下一帧的输入,逐步生成视频序列。该方法能够确保生成的视频具有自然的过渡和连贯性。

过程:
输入第一个视频帧,并将其传递到网络中。
网络生成下一个视频帧,并将其与前一个视频帧一同输入生成器,继续生成下一个视频帧。
通过不断迭代,生成完整的视频序列。

模型盘点

‌Sora‌

Sora是OpenAI开发的文本转视频模型。该模型根据用户提示生成短视频片段,还可以扩展现有的短视频。Sora于2024年12月向ChatGPT Plus和ChatGPTPro用户公开发布。
基于DALL-E技术,能够生成具有多个角色和复杂场景的视频,理解物理世界的运动规律。

‌可灵‌

可灵(KLING)是快手AI团队自研的视频生成大模型。生成的视频分辨率高达1080p,时长最高可达2分钟(帧率30fps),且支持自由的宽高比。2024年6月6日"可灵"视频生成大模型官网正式上线;2024年6月21日快手"可灵"视频生成大模型宣布推出图生视频功能;

‌即梦AI‌

字节跳动旗下的剪映团队研发,支持文生图和文生视频功能,能够生成高质量的视频内容。
即梦AI是一个生成式人工智能创作平台,支持通过自然语言及图片输入,生成高质量的图像及视频。提供智能画布、故事创作模式、以及首尾帧、对口型、运镜控制、速度控制等AI编辑能力,并有海量影像灵感及兴趣社区.

‌Vidu‌

Vidu是北京生数科技有限公司联合清华大学发布的中国首个长时长、高一致性、高动态性视频大模型,于2024年4月27日在中关村论坛未来人工智能先锋论坛上发布,模型采用团队原创的全球首个Diffusion与Transformer融合的架构U-ViT。支持一键生成长达16秒、分辨率达1080P的高清视频内容。毒液3的整条宣传短片的画面都基于Vidu平台实现,主要采用了Vidu的图生视频和首尾帧控制功能。

‌PixVerse‌

爱诗科技推出,具备多模态信息转换能力,能够将图像、文本和音频转化为高质量的视频内容。
PixVerse V2采用Diffusion+Transformer(DiT)基础架构,在时空建模方面引入了自研时空注意力机制,可提升复杂场景表现能力。PixVerse V2可一次生成多个视频片段,在保证一致性的前提下实现单片段8秒,和多片段40秒的视频生成。

‌MOKI‌

MOKI是一款AI短片创作工具,专注于辅助视频创作者打造动画短片、网文短剧、故事绘本和音乐视频。基于美图自研的美图奇想大模型(MiracleVision),通过AI脚本、视频生成、智能剪辑等功能,构建了一个从前期设定到AI内容生成,再到后期制作的AI短片工作流,简化视频制作流程,提高创作效率。MOKI深度理解视频创作者需求,实现内容和成本的双重可控,可以进行多种视频场景的AI短片创作。

通义万相‌

阿里云发布,支持文生视频和图生视频功能。

存在的问题

尽管现有的视频生成模型已经取得了一些突破,但仍然面临着多个挑战:
时序一致性:生成的视频帧之间的时间关系和空间关系需要非常精确,避免出现跳跃或不连贯的现象。
长时间段的视频生成:生成长时间的视频会涉及到如何保持长期的时序一致性,这对模型的训练和生成能力提出了更高要求。
高质量的生成:生成的视频质量依然是一个难题,需要更强的生成模型来捕捉细节和复杂场景。

详细模型列表

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

码农飞飞

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值