【论文阅读】FateZero: Fusing Attentions for Zero-shot Text-based Video EditingFateZero: Fusing Attentions

​FateZero: 融合注意力机制的Zero-shot 高质量视频编辑。

paper:https://arxiv.org/abs/2303.09535

总结:通过对注意力层在DDIM Inversion及时空序列的控制和引导,来实现高质量的视频风格变化。在逆向扩散过程的每个阶段存储全面的注意力图,以保持出色的运动和结构信息。还包括时空模块以增强视觉一致性。

  1. 基于扩散的生成模型在基于文本的图像生成中取得了显著的成功。然而,由于它在生成过程中包含巨大的随机性,将这种模型应用于现实世界的视觉内容编辑,特别是视频,仍然是一个挑战。
  2. 提出了FateZero,一种在现实世界的视频中基于零镜头的文本编辑方法,无需按提示训练或特定用途的掩码。为了稳定地编辑视频,提出了几种基于预训练模型的技术。
  3. 首先,与直接的DDIM反转技术相比,我们的方法在反转过程中捕获了中间的注意力图,它有效地保留了结构和运动信息。这些地图是在编辑过程中直接融合的,而不是在去噪过程中产生的。为了进一步减少源视频的语义泄漏,我们随后将自我注意力与由源提示的交叉注意力特征获得的混合掩码进行融合。
  4. 此外,通过引入空间-时间注意力以确保帧的一致性,对去噪UNet中的自我注意力机制进行了改革。然而,简洁的是,该方法是第一个显示出从训练好的文本到图像模型的零镜头文本驱动的视频风格和局部属性编辑的能力。还有一个更好的基于文本到视频模型的零镜头形状感知编辑能力。
  5. 大量的实验证明了此方法比以前的工作有更高的时间一致性和编辑能力。

【0】预备知识,DDIM 与 Inversion:

核心公式:

【0】预备知识,DDIM 与 Inversion:

首先我们需要对扩散模型的基础原理有一定的了解,核心需要了解DDIM的Inversion过程,完全不了解的同学可以看上篇文章:

曾天真:Diffusion Model (扩散模型)解读系列二:(DDIM) denoising diffusion implicit models

核心公式为:

【1】Inversion Attention Fusion:

现状不足之处:

[1.1]当我们足够了解DDIM时,就会发现DDIM每次仍然只能以很小的迭代幅度进行逆向,因此就会出现误差传递的过程。

[1.2]当我们使用较大的 classifier-free guidance 值时(引导生成)生成与原图较大的差异性会导致视频的明显时序不一致性(最常见的视频抖动问题)。

为了解决以上问题,文章在DDIM的Inversion步骤中加入了Attention模块,主要考虑到UNet的处理过程中,输入的关键词Prompt和init的隐特征会在Inversion步骤引导最中输出。提供Attention Map 后,DDIM-Inversion公式如下:

加入Attention后的inversion步骤

而在编辑的步骤,我们可以获得融合Attention Map的噪声:

为了突出本篇文章的核心优化点,我们结合以下图片进行对比说明:

[上半区]传统的方案,Attention fusion只作用在DDIM重建和编辑之间的步骤中。

[下半区]而本文中的方案,Attention fusion会直接在DDIM的 InVersion步骤中,从而影响到DDIM重建和编辑步骤。在保证重建和编辑相对独立的基础上,又能起到更好的引导和一致性稳定效果。

【2】Attention Map Blending:

可能读者也会有这种疑惑,加入的这个Inversion Attention 到底起了多大作用?因此这边把Attention影响最终结果的程度以热力图的形式打印出来。而判断影响的方式用白话的方式来说就是:编辑影响最终输出的部分,减去原始影响最终输出的部分,就是新引入的Attention Map带来的影响,下面是Attention map的融合公式:

融合后公式

【3】Spatial-Temporal Self-Attention:

之前的步骤核心解决了图片编辑的部分,但是作为视频编辑,还有一个大问题仍然没有被解决:即时空一致性。因此文章中将原生Unet的Self-Attention进行了改动,在无需进行预训练模型改动的基础上即可实现时空注意力机制:

【4】最后总结完整优化方案:

[4.1]在DDIM的Inversion 及 Edit步骤中更换了Attention map。

[4.2]使用较差注意力映射,防止出现语义泄漏。

[4.3]将原生的Unet注意力机制修改成时空注意力机制,保证视频的帧间一致性。

下面我们结合完整算法流程图就融会贯通:

完整流程图

 

展示case:

参考:【AIGC-AI视频生成系列-2】FateZero: 融合注意力机制的Zero-shot 高质量视频编辑 - 知乎 (zhihu.com) 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值