Customize-A-Video：文生视频自由定制-CSDN博客

本文链接：https://blog.csdn.net/weixin_44292902/article/details/140353774

人工智能咨询培训老师叶梓欢迎转载标明出处

视频领域，尤其是文本到视频（T2V）扩散模型中的动作定制，尚未得到充分研究。来自马里兰大学、Adobe Research 和延世大学的研究团队提出了一种名为“Customize-A-Video”的新方法，本方法通过单一参考视频对动作进行建模，并将其适应到具有空间和时间变化的新主体和场景中。本方法利用时间注意力层上的低秩适应（LoRA）技术，定制预训练的T2V扩散模型，以实现特定动作的建模。为了在训练过程中分离空间和时间信息，本方法还引入了一种新颖的“外观吸收器”概念，该概念在运动学习之前将原始外观从单一参考视频中分离出来。采用本方法可以轻松扩展到各种下游任务，包括自定义视频生成和编辑、视频外观定制以及多种动作组合，以即插即用的方式。

Figure 1展示了"Customize-A-Video"方法的核心功能，即接受单个参考视频作为输入，并将其中的动作转移到新生成的视频上，同时保持合理的变化性。

单一参考视频的动作转移：该方法可以从一个参考视频中提取动作，并将其应用到新的视频中。例如，将一位女士的旋转舞蹈动作转移到Ironman（钢铁侠）角色上。这种方法不仅能够实现精确的动作复制，还能够生成具有随机变化的两个不同的输出变体。
多主体动作转移：除了单一主体，该方法还能够将动作应用到多个主体上。这意味着可以对多个角色或对象进行动作定制，使它们同时执行相同的动作，增加了视频的复杂性和动态性。
多动作定制组合：图1还展示了如何将多个动作定制结合起来。例如，除了旋转舞蹈动作外，还可以加入航拍镜头的飞行动作，创造出更为丰富和复杂的视频场景。
动作与外观定制的结合：图1展示了如何将提出的动作定制方法与现有的图像定制方法结合起来，以支持外观和动作的双重定制。这允许用户不仅定制视频中的动作，还可以定制视频中角色或对象的外观，实现高度个性化的视频内容创作。

方法

论文首先介绍了文本到视频（T2V）扩散模型的预备知识。这些模型采用一个3D UNet网络，通过逐步去噪的方式生成视频。3D UNet由多种组件构成，包括空间自注意力和交叉注意力机制、2D和3D卷积层，以及时间交叉帧注意力。在训练过程中，模型接收一个视频的多帧作为输入，并在每个去噪步骤中尝试减少输出与目标帧之间的差异。论文还提到了低秩适应（LoRA）技术，这是一种对预训练模型进行微调的方法，通过在注意力层添加低秩矩阵来调整原有权重，从而适应新任务。

自定义视频方法的核心是时间低秩适应（Temporal LoRA，简称T-LoRA），这是一种专门设计用于捕获视频动作特征并实现动作定制的技术。T-LoRA的灵感来源于传统的低秩适应方法，但其专注于时间维度，以适应视频内容的特殊需求。

T-LoRA通过在T2V模型的时间交叉帧注意力层上应用LoRA技术，来增强模型对视频中动作变化的捕捉能力。这种方法的目标是在保留原始视频外观的同时，实现对动作的精确控制和定制。通过这种方式，T-LoRA能够学习到参考视频中的动作特征，并将这些动作特征转移到新的视频中，即使是在不同的场景和不同的主体上。

在T-LoRA的应用过程中，模型首先通过分析参考视频来提取动作信息。然后，这些信息被用来调整预训练的T2V扩散模型，使其能够生成具有相似动作特征的新视频。这种方法的一个关键优势是它能够处理单次参考视频的定制任务，而无需大量的训练数据或复杂的训练过程。

T-LoRA的设计允许它与现有的文本到视频生成模型无缝集成，从而为视频生成提供了更高的灵活性和定制能力。通过T-LoRA，研究者和开发者可以更容易地创建动态和引人入胜的视频内容，这些内容不仅能够准确地反映文本提示中描述的动作，还能够在不同的视觉环境中自然地展现这些动作。

论文提出了一种创新的概念，即外观吸收器（Appearance Absorbers），旨在进一步增强视频动作定制的准确性和多样性。外观吸收器的核心作用是从参考视频中分离出空间信息，确保时间LoRA（T-LoRA）能够专注于学习动作特征，而不受空间特征的干扰。

外观吸收器由一系列图像定制模块组成，这些模块特别设计用于吸收视频中的空间信号，包括身份、纹理、场景等元素。通过这种方式，当进行动作定制时，模型可以更准确地捕捉到动作的动态变化，而不是简单地复制视频中的静态外观。

外观吸收器包括两种类型的方法：空间LoRA（S-LoRA）和文本反转（Textual Inversion）。空间LoRA通过仅在T2V模型的空间注意力层上应用LoRA，来吸收无序视频帧中的空间信息。这种方法允许模型专注于学习视频中的空间布局和外观特征，而不是动作本身。

另一方面，文本反转利用可学习的占位符标记，这些标记通过预训练的文本分词器初始化，并吸收与视频外观相关的空间信息。这种方法通过将文本描述与视频帧相结合，提高了模型对视频中特定外观特征的吸收能力。

在训练过程中，外观吸收器首先被训练以吸收参考视频中的空间信息。随后，在第二阶段的训练中，这些吸收器与T-LoRA一起被集成到T2V模型中。此时，外观吸收器的参数被冻结，以确保它们不会在学习动作特征的过程中改变。这样，T-LoRA就可以在没有空间信息干扰的情况下，专注于从视频中学习动作特征。

通过使用外观吸收器，本方法能够生成在新场景和新主体中准确且多样化的动作。这不仅提高了动作定制的灵活性，也使得生成的视频更加自然和吸引人。外观吸收器的引入，为视频定制领域带来了一种新的思考方式，为实现更高级的视频编辑和生成任务提供了可能。

自定义视频方法中，训练和推理流程是实现动作定制的关键步骤。这一流程分为两个主要阶段：外观吸收器的训练和T-LoRA的训练，最后是推理阶段，用于生成具有新文本提示的输出视频。

LoRA（T-LoRA）和训练推理流程的示意图
说明了如何将时间LoRA应用于基础T2V扩散模型，并介绍了三阶段训练和推理流程

在外观吸收器的训练阶段，这些模块被专门设计来忽略T2V模型中的时间层，包括时间注意力层和3D卷积层。这样做的目的是让外观吸收器集中于学习视频中的空间信息，如主体的外观和背景场景。训练使用的视频帧是无序的，并且使用与地面真实描述相匹配的损失函数来指导学习过程。

在第二阶段，外观吸收器被集成到T2V模型中，但其参数保持冻结状态。此时，T-LoRA被引入到模型的时间注意力层，并且使用参考视频和包含动作和外观描述的完整真实字幕进行训练。这个阶段的目标是让T-LoRA学习如何将参考视频中的动作转移到新的视频中，同时确保外观吸收器能够生成空间上定制的内容。

在推理阶段，只有训练好的T-LoRA被加载到基础T2V模型上。此时，给定一个新的文本提示，模型会根据这个提示生成一个新的视频，其中的动作是根据参考视频定制的，同时外观则是根据文本提示定制的。这种方法允许模型在保持动作的准确性和多样性的同时，创造出具有新颖外观的视频。

整个训练和推理流程的设计允许模型在不同的视频生成任务中灵活应用，包括精确的视频编辑、视频外观定制和多种动作组合。通过这种方式，研究者能够利用预训练的T2V模型，通过一次性的训练过程，实现对视频内容的定制化控制，大大扩展了视频生成和编辑的可能性。

实验

作者使用的基础文本到视频（T2V）扩散模型是通用的，可以应用于各种视频生成任务。在这项工作中，他们选择了ModelScope T2V模型作为预训练模型，这个模型在实验中被用来生成视频。为了保持一致性并便于比较，所有视频在预处理和生成时都被设置为2秒长，以8帧/秒的帧率，以及256×256的分辨率。

数据集的选择上由于缺乏专门为单视频动作定制任务设计的数据集，他们从不同的来源搜集了视频，包括LOVEU-TGVE2023、WebVid-10M和DAVIS等数据集。这些数据集提供了多样化的视频内容，使得作者能够评估他们提出方法的有效性。为了测试模型的泛化能力，作者还包括了野外视频，即那些在非受控环境中拍摄的视频，这增加了评估的难度，但也能更全面地反映模型在现实世界条件下的表现。

由于没有现成的方法与作者提出的一次性视频动作定制任务完全相同，他们选择了与他们的工作最相关的两个现有方法：Tune-A-Video和Video-P2P。这些方法在单参考视频上进行微调，调整空间和时间注意力，以实现动作的定制。然而，这些方法的一个限制是它们依赖于DDIM（去噪扩散隐式模型）反转的参考视频潜在表示作为输入，这可能会限制生成视频的多样性和灵活性。

定量评估中作者选择了三个指标：文本对齐（Text alignment）、时间一致性（Temporal consistency）和多样性（Diversity）。

文本对齐（Text alignment）：这个指标使用CLIPScore来衡量生成的视频帧与输入文本提示之间的对齐程度。一个高文本对齐分数表明生成的视频内容与文本描述紧密相关。
时间一致性（Temporal consistency）：这个指标使用LPIPS（感知损失）来衡量生成视频连续帧之间的视觉一致性。低LPIPS值表明视频帧之间的过渡平滑，没有突兀的变化。
多样性（Diversity）：同样利用LPIPS来衡量，但这次是为了评估在相同文本提示下，由不同随机噪声种子生成的多个视频之间的差异。高多样性得分意味着模型能够产生视觉上明显不同的视频，即使它们都是对同一文本提示的响应。

单次拍摄动作定制的定性结果：基础的ModelScope T2V模型虽然能够从大规模数据集中学习到一般的动作概念，但无法准确复制由参考视频引导的具体动作。相比之下，Tune-A-Video和Video-P2P利用DDIM反转的潜在表示，导致输出在时间上是确定性的，并且受到参考帧布局的结构限制。而提出的方法能够在新场景和主体中转移参考动作，同时通过随机噪声输入引入时间变化。

作者还进行了一系列消融研究，以验证他们方法的不同组件的有效性。例如，他们探讨了仅在空间注意力层上应用LoRA（S-LoRA）或在空间和时间注意力层上同时应用LoRA（ST-LoRA）的影响。结果表明，与T-LoRA方法相比添加空间定制模块的模型主要基于空间布局记忆视频，导致视频外观和动作定制的显著退化。

应用

利用LoRA技术的即插即用特性，作者提出了几个下游应用案例，这些案例不仅证明了模型的多样性，也展示了其在视频生成和编辑方面的实用性。

视频外观定制：在这项应用中，作者展示了如何将时间LoRA（T-LoRA）与图像定制技术结合使用，以同时控制视频的时空层面。通过在T2V模型中注入T-LoRA来呈现参考动作，同时使用图像空间LoRA来反映特定的漫画风格，模型能够产生既具有指定动作又具有新外观风格综合效果的视频。

多动作组合：作者进一步探索了如何将多个T-LoRA模块应用于基础模型，每个模块针对不同的参考视频进行训练，以实现多种动作的融合。例如示例中，他们展示了如何将“后退跌倒”的动作和“推拉变焦”的摄像机运动合并到一个目标场景中，使用两个T-LoRA模块生成具有合并动作的视频。

第三方外观吸收器：作者还讨论了如何利用预训练在野外图像数据上的第三方图像定制模块作为现成的外观吸收器。在不经过第一阶段训练的情况下，直接使用这些模块来处理视频，从而节省了训练时间并提高了效率。在一个示例中，作者使用了一个针对特定虚构角色预训练的公共图像LoRA，而不是对参考视频帧进行调整，从而避免了原始外观特征泄露到替换主体上的问题。