【论文阅读】Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM Animator

文章介绍了上海科技大学的研究,使用大语言模型LLM和潜在扩散模型LDM,开发了一种零样本文本到视频生成器,旨在生成具有语义连贯性和时间变化的视频。方法包括串行提示、视频生成和插值赋权,通过结合预训练模型的知识,实现高质量的视频生成。实验结果显示在语义连贯性和时间一致性方面优于现有方法,但存在模型偏差和局限性。
摘要由CSDN通过智能技术生成

Zero-Shot文本到视频生成器与LLM导演和LDM动画。

introduce

机构:上海科技大学

关键词:文本到视频生成器、语义连贯、大语言模型、高保真度

motivation: 缺少高质量的具有时间信息的text-video数据(zero-shot),之前的t2v工作更像是生成“moving images”(Text2Video-Zero),该工作想生成语义连贯,有意义时间变化的视频,而不是仅仅让图片动起来。如图1所示,在“一朵花正在逐渐绽放”的文字提示下,生成视频完整描述了整个从花蕾到花苞的过程。

基本思想:利用预训练的大型语言模型(llm)作为指导者 来生成语义连贯的提示序列,预训练的潜在扩散模型(ldm)作为绘制者 来生成高保真帧。

综合利用llm 的rich world knowledge和ldm的生成能力。llm在大量文本数据上预训练,将文本提示转换为一系列提示,这些提示叙述了事件随时间的进展。预训练的ldm生成以提示序列为条件的连续帧,以创建视频。

Method

Pipeline由三个顺序模块组成:串行提示,视频生成和插值赋权。

给定文本提示T,前两个阶段生成一个低帧率的视频,视频包含f帧,帧大小为h×w。然后,插值授权模块填充帧之间的空白,以提高连续性,从而得到最终的视频。

1串行提示阶段,首先用LLM的一般知识,将原始提示转换为一序列的串行帧提示:,指示语义内容随时间的变化。准确描述整体叙事,让LDM生成语义连贯的框架。

由LLM将原始提示转换为串行帧提示:“一个宇航员在月球上挥手”

画面2:宇航员放下左臂……准备做一个挥动的动作。

画面3:面带微笑……他有力地举起右手,……他开始挥动......

经过处理,保证语言结构一致,变为:

画面2:身穿白色太空服的宇航员,放下手臂。

画面2:身穿白色太空服的宇航员,举起右手。

作用:这样就生成了一系列文本以供生成图片。

2视频生成阶段,对LDM进行修改,提出两个策略:联合噪声采样(Joint noise sampling) 和 步骤感知注意力偏移(Step-Aware Attention Shift) 来生成相干帧。

3插值赋权阶段,提出了一种双潜空间插值策略,生成相邻两帧之间的中间帧。同时以上下文路径(Contextual Path)和去噪路径(Denoising Path)为条件,来生成中间帧。作用:提高帧率,更连贯。两条路径的权重随去噪时间步长而变化,以确保平滑兼容。

1 Serial Prompting 

问题:生成的初始描述,文本都是碎片化的,导致单个框架的信息不足。

方法:为了确保跨框架提示语的语义一致性,进一步指导llm生成具有一致语言结构的f个提示语序列

,其中每个提示语准确详细地描述了视觉内容。

2 video generation

视频生成模块,使ldm符合提示序列,生成相干帧。

问题:简单地从不同的提示生成静止图像会导致不相关,不能排序成连贯的视频。

方法:提出了两种新的修改,使ldm在不需要额外训练的情况下生成连贯图像组成视频。

首先,从每一帧的联合高斯分布中,同时采样噪声,该分布是通过考虑视频级的统一噪声和帧级的单个噪声来构建的,生成具有一定变化的相干帧。然后,在推理中修改自注意层,根据去噪时间步长,调整对上下文信息和自一致内容的注意。

1.joint noise sampling(联合噪声采样):从 帧间的联合概率分布 而不是独立概率分布中 采样帧扩散过程中的初始噪声。

问题:(1)独立噪声:每帧噪声相同,导致ldm在相似的文本条件下,生成具有相似内容的图像序列,一致性好,但帧间变化小。(2)联合噪声:从独立噪声生成图像,多样性好,但帧间一致性差。

方法:通过 联合考虑独立分布和统一分布 来构造 联合分布。具体来说就是 对 视频帧之间的统一噪声 和 每个视频帧的独立噪声 进行加权求和。此外设计了加权系数,确保每一帧的初始噪声服从正态高斯分布。

:联合噪声, :独立噪声。噪声加权和:

混合噪声遵循联合分布:

Λ是方差系数。 λ= 0 表示统一噪声。λ= 1 表示独立噪声。

2.step-aware attention shift(步骤感知注意力偏移)

问题:本文的方法不仅需要保持图片序列的连贯性,而且需要保持每张图片与对应提示的语义连贯性。

之前的做法:从前一帧和第一帧中检索键和值,执行sparse spatio-temporal attention(稀疏时空注意)

本文方法:将前一帧和第一帧称为上下文帧,并关注上下文键值对。前一帧有助于增强时间一致性,而第一帧作为基准形状,保持整个视频的外观一致性。最初的注意力侧重于上下文帧,以形成粗粒度的形状和布局。随着去噪time step的增加,将ldm的U-Net中自注意层的注意力从上下文帧转移到当前帧,从而保留其特征和细节,生成完整图像:

Τ:时间步长阈值。(K0, V0)、(Ki−1,Vi−1)和(Ki, Vi)分别是第一帧、前一帧和当前帧中的键值对。

3 Interpolation Empowerment

插值赋权模块,目的:在不增加训练资源的情况下进一步提高帧率。

方法:插值的中间帧在去噪过程中也应该考虑语境,即前一帧和后一帧。提出了生成中间潜变量的双插值路径

  1. 上下文路径Contextual path,在前后帧之间插值潜变量(从前后帧的latent域插值),以保证时间一致性。在x f−1和x f+1之间插入一个新的帧x f,线性:
  2. 去噪路径Denoising path,在DDIM去噪过程中,插值隐变量,考虑插入帧的语义信息,以提高语义一致性。插值前一帧和后一帧的text embedding(文本嵌入),得到中间帧的text embedding 。以为条件执行DDIM去噪(初始噪声同video generation)。在(前部分)和由DDIM获得的潜在变量(后部分)之间进行线性插值:

DDIM去噪过程:Pt:预测的x0,Dt:指向x的方向,随机噪声

插值系数 m(t) 根据时间步长变化,早期Denoising path中的值较小,后一步增加。为表示

的条件概率分布,m(t) = 1和m(t) = 0时的分布:

experiment

ChatGPT作为LLM,Stable Diffusion作为LDM,使用预训练的v1.5权值。我们首先生成一个长度为f = 6,分辨率为512 × 512的视频,然后在最明显的帧之间迭代插值,第一个插值帧的k = 0.5。所有实验均在单个NVIDIA GeForce RTX 3090Ti上进行。

评估

用CLIP来评估输入提示与生成帧之间的相关性。还计算了每个帧与LLM(*)生成的相应提示之间的片段得分(我们的方法强调整体叙事的语义连贯性)。

将每帧单独与输入的原始prompt比较,得分较低,但将每帧与LLM生成的每帧提示进行比较,得分较高。

    用户喜好研究:对保真度、时间连贯和语义连贯进行评分,并给出一个综合排名。时间连续性不如训练好的方法,其他维度上都更高。

图4:分析Free-Bloom的效果

  1. 无联合噪声采样。将联合噪声初始化替换为独立初始化。帧间内容不一致。
  2. 无转移自注意力。使用原始LDM而不修改自注意层,不关注上下文帧,很难保持前景和背景的一致性和时间连续性。
  3. 对Text2Video-Zero进行了调整,给每一帧文字提示来生成。结果表明不能理解序列提示,不能产生连贯的有语义的“运动图像”。

D)不关注当前帧本身。用TAV中提出的时空注意层取代了所有的自注意层。Tune a Video中提出的时空注意层(只考虑第一帧和前一帧)。生成的帧表现出改进的时间一致性,显示出帧之间的平滑转换。帧看起来几乎相同,仅基于第一帧创建一系列无意义的和抖动帧,这与预期的时间语义不一致;长序列中的长时间上下文注意力损害各个帧的保真度。最后一帧呈现的是一条不完整的腿。

E)基于D考虑当前帧,但不会进行step-aware shift,改善了保真度,由于缺乏在去噪时间步长上不同的推理策略,结果仍然与语义不一致。

图3:示例,与t2v - zero和VideoFusion比较。(1)我们的方法生动地描绘了火山爆发的完整图像或泰迪熊跳入水中的连续运动,展示了生成语义有意义的帧序列的能力,其中视觉元素、动作和事件与输入提示以及上下文叙事保持一致。(2)此外,该方法在保持单帧高保真度的同时,还具有时间相干性。(3) T2V-Zero方法虽然保持了帧间整体内容的一致性,但无法描述连续的事件。此外,随着视频长度的增加,主体很容易被扭曲。(4)VideoFusion在大规模数据集上训练,时间一致性好,但是单个帧的保真度和质量差。

图13:扩展:使图像移动。与DDIM反演相结合,可以根据第一帧及其对应的提示生成视频。

conclusion

总结:侧重于改善事件进展的叙述。有效地利用预训练的LLM和LDM的知识,并产生高度语义连贯的视频,同时保持时间连贯和相同的连贯。

局限性:由于采用ChatGPT和Stable Diffusion v1.5,可能会继承这两个模型的偏差。高度依赖于基础模型llm和ldm。因此将继承那些大型预训练模型的局限性。如何将zero-shot方法和训练法的优点结合起来是未来研究的一个很有前景的方向。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值