Direct-a-Video：用户导向的定制化视频生成技术

最新推荐文章于 2024-09-13 15:56:44 发布

人工智能培训咨询叶梓

最新推荐文章于 2024-09-13 15:56:44 发布

阅读量2k

点赞数 24

分类专栏：人工智能前沿文章标签：音视频计算机视觉人工智能文生图图像处理自然语言处理大模型

本文链接：https://blog.csdn.net/yetzi1975/article/details/141065907

版权

人工智能前沿专栏收录该内容

243 篇文章 2 订阅

订阅专栏

人工智能咨询培训老师叶梓欢迎转载标明出处

传统的文本到图像（Text-to-Image, T2I）扩散模型在图像生成和编辑方面展现出了惊人的质量和多样性。随着技术的发展，文本到视频（T2V）扩散模型应运而生，它们通常通过在预训练的T2I模型基础上增加时间层来实现视频的生成和编辑。然而，现有方法在支持用户定义的摄像机运动和对象运动控制方面存在不足，限制了视频运动控制的灵活性。本文介绍了“Direct-a-Video”，这是一套全新的文本到视频生成框架，它允许用户独立指定一个或多个对象的运动和/或摄像机运动，实现了仿佛在导演视频般的个性化视频创作体验。

方法

图2所示Direct-a-Video的整体流程分为训练阶段和推理阶段，分别用于学习摄像机运动和实现对象运动。

在训练阶段，研究者们对视频样本进行增强，以模拟摄像机的平移和缩放运动。模拟得到的带有平移和缩放参数的视频样本随后被输入到U-Net模型中。同时，这些参数也被嵌入并注入到新引入的时间交叉注意力层中，作为摄像机运动的条件。这种方法的优势在于，它消除了对摄像机运动注释的需求，因为通过增强的数据本身就包含了运动信息。

在推理阶段，用户输入一个包含对象词汇和相关框轨迹的文本提示。系统使用空间交叉注意力调制来指导对象在视频中的空间-时间布局。这一阶段不需要额外的优化步骤，因为交叉注意力层已经在训练阶段学习了如何根据文本提示中的信息来正确地放置对象。值得注意的是，Direct-a-Video的方法通过独立控制摄像机运动和对象运动，有效地将两者解耦，从而允许用户独立或联合地控制这两方面。

Direct-a-Video的方法通过独立控制摄像机运动和对象运动，有效地将两者解耦。用户可以单独控制摄像机的运动，也可以单独控制对象的运动，或者同时控制两者来创造出复杂的动态场景。

Direct-a-Video框架旨在实现文本到视频的生成，其中用户可以自定义摄像机的运动和对象的运动。在这项任务中，用户首先提供一个文本提示，这个提示中可能包含一个或多个对象词（O1, O2, ..., ON）。这些对象词将用于生成视频内容。接下来，用户需要指定摄像机的运动参数，包括水平平移比例（cx）、垂直平移比例（cy）和缩放比例（cz）。这些参数将决定摄像机在视频序列中的运动轨迹。对于视频中的每个对象On，用户还需要指定起始框（B1n）和结束框（BLn），以及连接这两个框的中间路径（ζn）。系统将通过插值生成一系列以路径ζn为中心的框，从而定义对象的空间-时间轨迹。

为了训练模型以理解和生成摄像机运动，论文提出了一种数据构建和增强的方法。研究者们首先使用固定摄像机拍摄的视频样本，然后通过应用平移和缩放参数来模拟摄像机运动，从而增强这些视频样本。这种方法避免了从现有视频中提取摄像机运动信息的计算成本，并且不需要进行复杂的运动注释。

为了使模型能够“理解”摄像机运动，研究者们设计了一种摄像机嵌入机制。这包括使用傅里叶嵌入器和多层感知器（MLP）来将摄像机运动参数（cx, cy, cz）编码成摄像机嵌入。这种嵌入能够捕捉到平移和缩放运动的特征，并将它们转换成模型可以处理的格式。

研究者们还介绍了摄像机模块，这是集成到T2V模型中新的时间交叉注意力层。这些层专门用于解释摄像机信息，类似于空间交叉注意力层解释文本信息的方式。摄像机模块通过将查询特征从视觉帧特征F映射出来，并将键和值特征从平移嵌入和缩放嵌入中映射出来，来实现这一点。通过时间交叉注意力机制，摄像机运动被注入到视觉特征中，并通过门控残差的方式加回到特征中。这个过程不仅使模型能够学习到摄像机运动，同时也保留了预训练状态下的模型知识。

在Direct-a-Video框架中，对象运动控制是通过精细调节模型的注意力机制来实现的，具体包括注意力放大（Attention Amplification）和注意力抑制（Attention Suppression）两个方面：

注意力放大（Attention Amplification） 注意力放大的目的是增强模型对于文本提示中指定对象的响应，确保生成的视频内容中对象能够按照用户指定的轨迹运动。在这一过程中，模型会特别关注文本中与对象相关的词汇，并在对象出现的预期区域增强注意力图的响应值。例如，如果用户希望视频中的一只鸟从画面的左侧飞到右侧，模型就会在视频的起始帧和结束帧中对应位置的区域增强对“鸟”这一词汇的注意力。

具体来说，注意力放大通过调整交叉注意力层中的注意力图来实现。在交叉注意力层中，查询（Q）、键（K）和值（V）分别从视觉特征和文本特征中提取。通过调整Q和K的点积结果，模型可以增强特定对象词汇对视觉特征的影响，从而在生成的视频中突出这些对象。

注意力抑制（Attention Suppression） 为了防止在多对象场景中出现对象特征的混淆，Direct-a-Video框架采用了注意力抑制技术。在多对象生成时，如果不同对象的语义特征相互干扰，可能会导致生成的视频内容出现错误，比如一个对象错误地拥有了另一个对象的特征或形状。为了解决这个问题，模型会抑制那些与用户指定区域不匹配的查询-键对的注意力值。

实验

研究者首先采用了预训练的Zeroscope T2V模型作为Direct-a-Video的基础架构。这个模型被选中是因为它在视频生成方面表现出色。在训练过程中，研究者使用了DDIM采样器，这是一种用于生成模型的高效采样技术，它可以在50个采样步骤中生成高质量的视频。研究者还设置了分类器自由引导比例为9，这是一种用于改善生成样本质量的技术。

研究者特别关注了输出视频的尺寸，将其设定为320×512×24，这意味着视频具有320像素的高度、512像素的宽度和24帧的时长，以确保生成的视频既清晰又流畅。为了评估Direct-a-Video的性能，研究者选择了MSR-VTT和AnimalKingdom等数据集，这些数据集包含了丰富的视频样本和相应的描述，为模型提供了广泛的评估基础。

在摄像机运动控制方面，研究者将Direct-a-Video与现有的AnimateDiff和VideoComposer等技术进行了比较。通过一系列视觉对比实验，研究者展示了Direct-a-Video在生成具有单一类型或混合类型摄像机运动的视频方面的优势。例如，AnimateDiff虽然能够处理特定类型的摄像机运动，但缺乏对混合运动的支持。相比之下，Direct-a-Video能够根据用户输入的参数灵活地生成各种摄像机运动效果。

为了定量评估摄像机运动控制的效果，研究者报告了FVD（帧间变化度量）、FID-vid（视频帧间距离度量）和Flow error（光流误差）等指标。这些指标从不同角度衡量了生成视频的视觉质量和摄像机运动的准确性。结果显示，Direct-a-Video在这些指标上都优于基线方法，证明了其在视觉质量和摄像机控制精度上的优越性。

在对象运动控制方面，研究者主要将Direct-a-Video与VideoComposer进行了比较。VideoComposer虽然能够根据运动向量图生成对象运动，但在处理多个对象时存在一些限制，例如无法为每个对象指定独立运动，也容易出现语义混合和对象缺失的问题。通过视觉对比实验，研究者展示了Direct-a-Video在精确控制单个或多个对象运动方面的有效性。Direct-a-Video能够根据用户定义的框轨迹生成符合预期的对象运动，无论是静态对象还是多个对象的复杂运动场景。

为了定量评估对象运动控制的效果，研究者同样报告了FVD、FID-vid、CLIP-sim（CLIP图像-文本相似度）和Flow error等指标。CLIP-sim特别用于衡量生成视频中对象与文本描述的一致性。结果显示，Direct-a-Video在这些指标上同样优于VideoComposer，进一步证明了其在对象运动控制方面的有效性和精确性。

研究者们还展示了Direct-a-Video框架如何通过不同的参数设置来同时控制摄像机和对象的运动，从而创造出具有丰富动态效果的视频。例如，即使在相同的对象运动轨迹下，通过改变摄像机的平移和缩放参数，研究者们能够生成一系列视频，这些视频中的前景（对象）和背景（摄像机视场）运动呈现出不同的组合。这不仅显示了Direct-a-Video在运动控制上的灵活性，也体现了其在创造复杂动态场景方面的潜力。这种联合控制的能力极大地扩展了视频生成的创意空间，允许用户精确地设计视频中每个元素的运动。

消融研究中，研究者们深入探讨了注意力放大和抑制机制对Direct-a-Video性能的具体影响。研究者们分析了这些机制在对象定位精确性和防止对象间语义信息干扰方面的作用。例如，当移除注意力放大时，模型可能无法正确地将对象放置在指定的区域；而当移除注意力抑制时，可能会出现一个对象的特征错误地影响到另一个对象的情况。