小时级的长视频生成！浙江大学发布MovieDreamer，AI电影时代到来了？

夕小瑶

于 2024-08-21 14:30:14 发布

阅读量1.4k

点赞数 15

文章标签：音视频人工智能

本文链接：https://blog.csdn.net/xixiaoyaoww/article/details/141392724

版权

还记得前段时间刷屏朋友圈的Sora吗？它将生成视频的时长从几秒惊人地延长到前所未有的整整一分钟，惊艳了AI视频圈，不少人预言AI生成长达数小时的电影也指日可待。

这不，浙江大学带着MovieDreamer走来了，再次刷新了视频生成的极限，将时长推向了小时级。MovieDreamer不仅可以塑造鲜活生动的角色，编织出连贯流畅的故事线，在画面上精雕细琢，每一帧的细节更是拉满。

先来欣赏一下MovieDreamer生成的大作：

下图是MovieDreamer生成的泰坦尼克号的场景，非常逼真。且人物的面部、发型等在长时间内保持统一，这对生成自然逼真的长视频非常重要。

再来看看生成的视频demo:

，时长01:11

，时长01:03

，时长01:07

整个视频从画面到人物造型，都展现出了惊人的连贯性和协调性，叙事结构和情节进展复杂精细，虽然动态的面部表情仍略显僵硬，但瑕不掩瑜，这让我们对未来AI电影进一步发展充满了信心~

更多更长的视频详见：
https://aim-uofa.github.io/MovieDreamer/

论文标题:
MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequences

论文链接：
https://arxiv.org/pdf/2407.16655

框架

本文提出了一个专门用来制作更长的视频的新颖框架，巧妙融合了自回归模型在时间连贯性上的长处与扩散模型在图像渲染质量上的优势。先来速览一下该框架的大致流程：

该框架以多模态脚本为条件，通过自回归方式预测关键帧的tokens，随后以这些关键帧为基准，生成完整的视频内容。

不仅能够实现zero-shot视频生成;还能在给定样本条件下，创作出符合特定风格的视频作品。该框架在多模态脚本构思、自回归预测训练以及扩散渲染技术的各个环节中，均不遗余力地维护和强化了角色身份的一致性与情节发展的连贯性。

1. 通过扩散自编码器作关键帧标记

为了创建简洁且准确的图像表示，此处采用了扩散自编码器。编码器集成了预训练的CLIP视觉模型和Transformer Token压缩器，将图像编码为压缩后的Token 。随后，解码器利用这些Token，结合预训练的SDXL扩散模型，重建出分辨率为的高质量图像。在解码过程中，潜在图像Token通过交叉注意力机制融入扩散解码器，以增强重建效果。

训练过程仅优化压缩器和解码器，保持 CLIP 视觉模型不变。扩散自编码器的训练损失公式为：

后续实验表明，仅用两个token就能充分表征关键帧的主要语义。

2. 自回归关键帧Token生成

本文采用LLaMA2-7B构建了自回归模型。与传统的 LLMs 不同，它根据多模态脚本和历史信息预测连续的视觉令tokens，表示为：。

鉴于传统LLMs使用交叉熵损失只能处理离散输出，本文的模型处理的是连续图像token，作者引入了k-混合高斯混合模型（GMM）来建模Tokens的分布，通过2kd个均值、方差和k个混合系数参数化GMM。

模型训练时，最小化负对数似然损失，以优化token预测的准确性。

同时，为简化连续token的学习，我们额外引入了预测token和真实token之间的和损失:

对抗过拟合

面对高质量长视频数据稀缺的挑战，本文还采取了多种策略来防止过拟合，提升模型的泛化能力：

数据增强：通过随机水平翻转视频和逆转视频帧顺序，增加训练数据的多样性。
面部嵌入随机化：随机选择同一角色的不同面部嵌入，避免模型仅依赖面部信息记忆训练帧。
高dropout率：采用50%的dropout率，增强模型从有限数据中学习的泛化能力。
Token masking：在因果注意掩码中随机mask部分输入token，迫使模型通过上下文推断缺失信息，进一步提升其泛化性能。

专为自回归模型设计的结构化的多模态脚本

本文转为自回归模型设计了一种结构化的多模态脚本，如下图所示，它融合了角色、场景元素和故事弧线等多个维度。鉴于纯文本难以全面刻画角色外观，还结合了文本描述与面部嵌入，为角色提供更为详尽的呈现。

对于非文本模态（如面部嵌入和压缩token），利用多层感知器将其映射至LLaMA的嵌入空间，以实现无缝整合。

针对文本数据中长序列导致的token空间消耗问题，将文本分为“标识符”与“描述符”两种模态。标识符用于构建脚本框架，而描述符则承载详细属性描述。每个描述符通过CLIP编码为单个[CLS]，并映射至统一输入空间，此举极大地拓展了训练时的上下文容量。然后采用LongCLIP作为描述符的文本编码器，支持高达248Token的输入，显著增强了处理复杂叙事内容的能力。

因此，时间步处的多模态脚本和之前的历史数据表示为：

其中，分别表示描述符、标识符和角色面部嵌入的嵌入，$e_{<t}$ 表示之前预测的压缩帧token。负对数似然损失公式为：<="" p="">

个性化生成的few-shot训练

为推进个性化电影内容的创作，还引入了基于上下文学习的few-shot学习方法。训练阶段，随机抽取每集内容的10个帧，编码为视觉Token，并巧妙地将这些token融入该集的视觉token序列中。

此策略不仅增强了模型的上下文理解能力，使之能依据参考帧定制内容，还作为有效的数据增强手段，减轻了过拟合问题。

3. 强化ID保持的扩散渲染

尽管本文的主要扩散解码器擅长重建目标图像，但由于压缩token导致了部分细节损失。为此，作者强化了内的交叉注意力模块，集成了多模态脚本中的描述性文本嵌入和面部嵌入。

为进一步提升模型对关键细节的关注度，还实施了随机掩码策略，选择性遮蔽部分输入token,激励解码器更加依赖面部和文本线索，以更高精度重建图像，特别是在保持身份特征上。

4. 基于关键帧的视频生成

在获取电影中的关键帧后，我们可以基于这些关键帧生成电影的视频片段。为了生成更长的电影片段，作者提出了一种简单而有效的方案：在视频扩展过程中始终使用第一帧的特征作为“锚点”，以增强模型对原始图像分布的感知能力。在实际操作中，在生成后续视频时，使用原始输入图像的CLIP特征，而不是先前视频的最后一帧，来进行交叉注意力交互。