【论文阅读】FateZero: Fusing Attentions for Zero-shot Text-based Video EditingFateZero: Fusing Attentions

最新推荐文章于 2025-05-09 22:21:13 发布

李加号pluuuus

最新推荐文章于 2025-05-09 22:21:13 发布

阅读量518

点赞数

文章标签：论文阅读

本文链接：https://blog.csdn.net/weixin_57974242/article/details/134550967

版权

FateZero: 融合注意力机制的Zero-shot 高质量视频编辑。

paper：https://arxiv.org/abs/2303.09535

总结：通过对注意力层在DDIM Inversion及时空序列的控制和引导，来实现高质量的视频风格变化。在逆向扩散过程的每个阶段存储全面的注意力图，以保持出色的运动和结构信息。还包括时空模块以增强视觉一致性。

基于扩散的生成模型在基于文本的图像生成中取得了显著的成功。然而，由于它在生成过程中包含巨大的随机性，将这种模型应用于现实世界的视觉内容编辑，特别是视频，仍然是一个挑战。
提出了FateZero，一种在现实世界的视频中基于零镜头的文本编辑方法，无需按提示训练或特定用途的掩码。为了稳定地编辑视频，提出了几种基于预训练模型的技术。
首先，与直接的DDIM反转技术相比，我们的方法在反转过程中捕获了中间的注意力图，它有效地保留了结构和运动信息。这些地图是在编辑过程中直接融合的，而不是在去噪过程中产生的。为了进一步减少源视频的语义泄漏，我们随后将自我注意力与由源提示的交叉注意力特征获得的混合掩码进行融合。
此外，通过引入空间-时间注意力以确保帧的一致性，对去噪UNet中的自我注意力机制进行了改革。然而，简洁的是，该方法是第一个显示出从训练好的文本到图像模型的零镜头文本驱动的视频风格和局部属性编辑的能力。还有一个更好的基于文本到视频模型的零镜头形状感知编辑能力。
大量的实验证明了此方法比以前的工作有更高的时间一致性和编辑能力。

【0】预备知识,DDIM 与 Inversion：

核心公式：

【0】预备知识,DDIM 与 Inversion：

首先我们需要对扩散模型的基础原理有一定的了解，核心需要了解DDIM的Inversion过程，完全不了解的同学可以看上篇文章：

曾天真：Diffusion Model （扩散模型）解读系列二：(DDIM) denoising diffusion implicit models

核心公式为：

【1】Inversion Attention Fusion：

现状不足之处：

[1.1]当我们足够了解DDIM时，就会发现DDIM每次仍然只能以很小的迭代幅度进行逆向，因此就会出现误差传递的过程。

[1.2]当我们使用较大的 classifier-free guidance 值时（引导生成）生成与原图较大的差异性会导致视频的明显时序不一致性（最常见的视频抖动问题）。

为了解决以上问题，文章在DDIM的Inversion步骤中加入了Attention模块，主要考虑到UNet的处理过程中，输入的关键词Prompt和init的隐特征会在Inversion步骤引导最中输出。提供Attention Map 后，DDIM-Inversion公式如下：

加入Attention后的inversion步骤

而在编辑的步骤，我们可以获得融合Attention Map的噪声：

为了突出本篇文章的核心优化点，我们结合以下图片进行对比说明：

[上半区]传统的方案，Attention fusion只作用在DDIM重建和编辑之间的步骤中。

[下半区]而本文中的方案，Attention fusion会直接在DDIM的 InVersion步骤中，从而影响到DDIM重建和编辑步骤。在保证重建和编辑相对独立的基础上，又能起到更好的引导和一致性稳定效果。

【2】Attention Map Blending：

可能读者也会有这种疑惑，加入的这个Inversion Attention 到底起了多大作用？因此这边把Attention影响最终结果的程度以热力图的形式打印出来。而判断影响的方式用白话的方式来说就是：编辑影响最终输出的部分，减去原始影响最终输出的部分，就是新引入的Attention Map带来的影响，下面是Attention map的融合公式：