GitHub:jiwoogit/StyleID: [CVPR 2024 亮点] 扩散中的风格注入:一种适应大规模扩散模型以进行风格迁移的免训练方法
目录
摘要
尽管扩散模型具有令人印象深刻的生成能力,现有的基于扩散模型的风格迁移方法仍然需要在推理阶段进行优化(例如,微调或风格的文本反演),这既费时又未能充分利用大规模扩散模型的生成能力。为了解决这些问题,我们提出了一种基于预训练的大规模扩散模型的全新艺术风格迁移方法,并且不需要任何优化。具体来说,我们操作自注意力层的特征,模仿交叉注意力机制的工作方式;在生成过程中,将内容的键(key)和值(value)替换为风格图像的键和值。该方法为风格迁移提供了几个理想的特性,包括:
1)通过将相似的风格转移到相似的图像区域,保持内容的完整性;
2)根据内容和风格图像之间局部纹理(例如,边缘)的相似性来传递风格。
此外,我们引入了查询保持和注意力温度缩放,以缓解原始内容被破坏的问题,并引入初始潜在空间的自适应实例归一化(AdaIN),以解决风格迁移时色彩不和谐的问题(即未能传递风格的颜色)。我们的实验结果表明,所提出的方法在常规和基于扩散的风格迁移基准中均超过了现有的最先进方法。
1、介绍
近年来,扩散模型(DM)的进展使得在各种生成应用中取得了突破,如文本到图像合成[36, 32, 38]以及图像或视频编辑[7, 20, 44, 15, 3, 5, 51]。其中一种应用也被用于风格迁移任务[19, 48, 11, 50, 56];给定风格图像和内容图像,将内容图像的风格修改为给定风格。
基于扩散模型的风格迁移的通用方法利用了预训练扩散模型的生成能力。部分研究专注于显式地解耦风格和内容,以实现可解释和可控的风格迁移[48],或将风格图像反演到大规模文本到图像扩散模型的文本潜在空间[56]。然而,这些方法还需要进行基于梯度的优化以进行微调,并且对每个风格图像都需要文本反演[37],这非常耗时。在此基础上,DiffStyle[19]提出了一种无需训练的风格迁移方法,但它们被认为难以应用于广泛采用的潜在扩散模型[36],例如Stable Diffusion[36],这限制了用户利用大规模模型的显著生成能力。
本文的重点是将无训练的风格迁移方法扩展到大规模预训练扩散模型的应用。我们从最近基于大规模扩散模型的图像到图像翻译进展开始;这些进展揭示了注意力层在图像编辑中的能力。特别地,Plug-and-play[44]展示了自注意力(SA)的残差块和注意力图决定了生成图像的空间布局。此外,Prompt-to-Prompt[15]通过替换来自文本提示的交叉注意力(CA)的键和值,在保留原始注意力图的同时进行局部编辑。这些工作表明,
1)注意力图决定了空间布局,
2)CA的键和值调整了填充的内容。
受上述方法的启发,我们提出了一个新的论点,即操作自注意力层是一种有效的风格迁移方法(图1)。
具体来说,类似于CA,我们替换了SA的键和值,并观察到生成的图像仍然具有视觉上的合理性,并且自然地将替换图像的元素融合到原始图像中。这一观察促使我们提出了一种基于自注意力的风格迁移技术,将特定图像的风格(纹理)与不同图像的内容(语义和空间布局)结合起来。此外,我们强调,SA层具有风格迁移所需的特性。首先,如图2(a)所示,在基于SA的风格迁移中,具有语义相似性的内容图像块(查询)与相似风格(键)进行交互,从而在迁移后保持这些内容图像块之间的关系。接着,得益于大规模扩散模型强大的特征表示能力[52],查询的每个图像块都与具有相似纹理和语义的键具有更高的相似性。例如,在图2(b)中,我们可以观察到,位于蓝色框中的内容查询特征与具有相似边缘纹理的风格键特征高度相似。这鼓励模型基于内容和风格之间局部纹理(例如边缘)的相似性进行风格迁移。
因此,我们的方法旨在通过操作预训练的大规模扩散模型的自注意力特征,将风格图像的纹理迁移到内容图像中,而无需任何优化。为此,我们首先提出了一种基于注意力的风格注入方法。其基本思想是将内容图像在SA层中的键和值替换为风格图像的键和值,特别是在解码器后期的层,这些层与局部纹理相关。如上所述,交换的风格与内容和原始图像的纹理良好对齐,利用了基于相似性的注意力机制。通过所提出的风格注入方法,我们观察到局部纹理模式成功地迁移,但仍然存在一些问题,如原始内容的破坏和色彩不和谐。为了解决这些问题,我们提出了以下技术:查询保持、注意力温度缩放和初始潜在空间AdaIN。查询保持通过在SA中保留内容图像的查询,确保反向扩散过程保持原始内容的空间结构。注意力温度缩放旨在通过处理由替换键引入的模糊自注意力图来保持内容的结构。最后,初始潜在空间AdaIN通过调节扩散模型中初始噪声的统计量,修正了风格迁移中颜色不和谐的问题。
我们的主要贡献总结如下:
- 提出了一种通过简单操作自注意力特征,利用大规模预训练扩散模型进行风格迁移的方法;无需优化或监督(例如文本),即可将内容的键和值替换为风格的键和值。
- 通过提出查询保持、注意力温度缩放和初始潜在空间AdaIN三个组件,进一步改进了这种简单的风格迁移方法,使其能够适应风格。
- 在风格迁移数据集上进行了广泛的实验,验证了所提出的方法显著优于以前的方法,并达到了最先进的性能。
2、相关工作
2.1 基于扩散模型的神经风格迁移
神经风格迁移(Neural Style Transfer,NST)是一种图像生成任务,目标是将一张图像的风格迁移到另一张图像上,同时保留原始图像的内容。在扩散模型的领域,神经风格迁移得到了扩展,利用了预训练扩散模型的生成能力。例如,InST [56] 引入了一种基于文本逆转的方法,旨在将给定的风格映射到相应的文本嵌入空间。StyleDiffusion [48] 旨在通过引入基于 CLIP 的风格解耦损失,来解耦风格与内容,并对扩散模型进行微调以实现风格迁移。此外,还有一些方法利用文本输入作为风格条件,或用于确定生成内容的风格 [11, 50]。
另一方面,DiffStyle [19] 提出了一个训练自由的风格迁移方法,利用 h-space [24] 并调整跳跃连接,分别有效传达风格和内容信息。然而,当将 DiffStyle 应用于 Stable Diffusion [36, 45] 时,其行为与典型的风格迁移方法大不相同;不仅纹理被改变,空间布局等语义也发生了变化。
为了解决这些局限性,我们提出了一种新颖的算法,在无需优化过程的情况下,和谐地融合风格和内容特征,利用 Stable Diffusion 中的自注意力层进行风格迁移。
2.2 基于注意力的扩散模型图像编辑
随着预训练文本到图像扩散模型的显著进展 [35, 45],出现了许多图像编辑方法 [3, 20, 7, 40],这些方法利用了这些扩散模型。特别是,Prompt-to-Prompt [15] 提出了基于文本的局部图像编辑方法,通过操控交叉注意力(Cross-Attention)映射来实现图像编辑。具体来说,他们观察到交叉注意力在建模图像空间布局与每个单词之间的关系方面起着重要作用。因此,他们通过替换原始的单词和交叉注意力图,来得到与文本条件匹配的编辑图像。随后,Plug-and-play [44] 引入了基于文本引导的图像到图像转换方法。他们发现空间特征(即来自残差块的特征)和自注意力图确定了生成图像的空间布局。因此,在使用给定文本条件生成新图像时,他们通过原始图像的特征和注意力图来引导扩散模型,以保持原始空间布局。最近,MasaCtrl [4] 提出了通过文本提示进行一致图像编辑的互自注意力控制方法。具体来说,他们保留源图像的自注意力层的键(key)和值(value),同时用所需的文本提示对模型进行调节。
与这些方法类似,我们也认识到注意力图在表示空间信息方面的潜力。然而,不同于上述集中利用文本条件的研究,我们聚焦于通过风格和内容图像对模型进行条件化,这些图像来自不同风格的两张图像。通过结合风格和内容图像的自注意力层特征,并精确调整中间表示中的统计信息,我们将内容图像的纹理迁移到给定的风格图像上。
3、方法
3.1 基于注意力的风格注入
我们从先前的图像到图像翻译方法中获得启发,特别是 Prompt-to-Prompt [15]。他们方法的关键思想是通过保持注意力图,改变交叉注意力(CA)的文本条件。由于注意力图影响输出的空间布局,替换后的文本条件决定了生成图像中的绘制内容,这些条件实际上是 CA 中的键(key)和值(value)。受此启发,我们通过操作自注意力层中的特征,模拟交叉注意力的方式,将风格图像 的特征作为条件。具体而言,在生成过程中,我们将内容图像的键和值替换为风格图像的键和值,从而将风格图像的纹理迁移到内容图像上。
为此,我们首先通过 DDIM 反演 [42] 获取内容和风格图像的潜变量,然后在 DDIM 反演过程中收集风格图像的自注意力(SA)特征。具体来说,对于预定义的时间步 ,风格和内容图像
和
从图像(t=0)反演到高斯噪声(t=T)。在 DDIM 反演过程中,我们还在每个时间步收集内容图像的查询特征(
)和风格图像的键和值特征(
,
)。
接着,我们通过复制内容图像的潜变量噪声 来初始化风格化潜变量噪声
。然后,我们通过将从风格图像收集的键
和值
注入到自注意力层中,替代原始的内容图像的键
和值
,来将目标风格注入到风格化潜变量中,在执行整个风格化潜变量反向过程时。然而,仅仅进行这种替换可能会导致内容破坏,因为随着注意力值的变化,风格化潜变量的内容会逐渐变化。因此,我们提出了查询保留(query preservation)来保持原始内容。简单来说,我们将风格化潜变量的查询
和内容图像的查询
混合,在整个反向过程中进行查询保留。具体来说,这些风格注入和查询保留过程在时间步 t 时刻可表示为以下公式:
其中, 是查询保留的混合程度,取值范围为 [0,1]。
此外,我们将在解码器的后续层(Stable Diffusion 中的第 7-12 层)应用这些操作,这些层与局部纹理相关。值得注意的是,所提出的方法可以通过改变查询保留比例 来调整风格迁移的程度。具体来说,较高的
保持更多的内容,而较低的
会增强风格迁移的效果。
3.2 注意力温度缩放
注意力图是通过查询与键特征之间的缩放点积计算的。在训练过程中,自注意力层中的查询和键特征来自相同的图像。然而,如果我们将键特征替换为风格图像的键特征,那么由于风格和内容高度不相关,相似度的幅度会整体降低。因此,计算出的注意力图可能会变得模糊或平滑,这会进一步导致输出图像不清晰,影响内容和风格信息的捕捉。
为了量化这个问题,我们在消融基于注意力的风格注入的过程中,测量了注意力图的标准差。具体而言,我们计算了在应用 softmax 之前的注意力图,即查询与键之间的缩放点积。如图 4 (a) 所示,我们验证了风格注入倾向于降低整个时间步上的注意力图标准差。也就是说,应用风格注入后的注意力图经过 softmax 后会过于平滑。
为了使注意力图更加清晰,我们引入了一个注意力温度缩放参数。具体而言,我们在应用 softmax 之前,将注意力图乘以一个常数温度缩放参数 ,该参数大于 1。这样,经过 softmax 后的注意力图会比原始值更为锐利。修改后的注意力过程可表示为:
我们使用 作为默认设置,这是整个时间步上的平均比例。如图 4 (b) 所示,我们确认这一操作有效地校正了注意力图的标准差,使其接近原始值。
3.3 初始潜变量 AdaIN
在艺术风格迁移中,色调通常占据了风格信息的重要部分。在这种背景下,我们观察到,仅通过基于注意力的风格注入,往往无法有效捕捉到给定风格的色调。正如图 5 (a) 所示,纹理和局部图案成功地转移到了内容图像上,但内容图像的色调仍然保持不变。此外,即使注入了风格的查询、键和值,最终生成的图像仍然保持了内容图像的色调,如图 5 (b) 所示。
由于仅替换自注意力特征对色调的影响较小,我们分析了 DM 中的另一个重要部分:初始潜变量噪声。最近的研究发现,DM 在合成纯白或纯黑图像时存在困难 [14]。相反,它们倾向于生成中性色调的图像,因为初始噪声是从均值为零、方差为单位的分布中采样的。因此,我们假设初始噪声的统计特征在很大程度上影响生成图像的颜色和亮度。
基于这一假设,我们尝试使用风格图像的初始潜变量 来进行风格迁移。然而,如果我们直接从风格潜变量
开始生成图像,合成结果的结构信息也会跟随风格图像,导致丧失内容图像的结构。为了充分利用两个初始潜变量中的有价值信息,我们认为色调信息与初始潜变量的通道统计量密切相关,这符合 Style Loss [12] 和 AdaIN [18] 的基本原理。因此,我们采用 AdaIN 对初始潜变量进行调制,以实现有效的色调信息转移,公式表示如下:
其中, 和
分别表示通道的均值和标准差。基于此,初始潜变量
保留了来自
的内容信息,同时将通道的均值和标准差与
对齐。
4、实验
4.1 实验设置
我们所有的实验都在经过 LAION 数据集 [39] 预训练的 Stable Diffusion 1.4 模型上进行,并采用 DDIM 采样 [42],总共 50 个时间步()。对于默认的超参数设置,若未另行说明,我们使用
和
。
4.2 评估
传统的风格迁移方法通常将 Style Loss [12] 作为训练目标和评估指标,因此它们的结果往往过拟合于 Style Loss。为了进行公平比较,我们采用了一种最近提出的评估指标 ArtFID [49],它在考虑内容和风格保留的情况下评估整体的风格迁移性能,并且已知与人工判断高度一致。具体而言,ArtFID 的计算公式如下:
其中,LPIPS [53] 用于衡量风格化图像与对应内容图像之间的内容保真度,而 FID [16] 则评估风格化图像与对应风格图像之间的风格保真度。
数据集:我们的评估采用 MS-COCO [29] 数据集中的内容图像和 WikiArt [43] 数据集中的风格图像。所有输入图像都裁剪为 512×512 的中心裁剪图像。此外,为了进行定量比较,我们从每个数据集中随机选择 20 张内容图像和 40 张风格图像,总共生成了 800 张风格化图像,类似于 StyTR² [10] 的做法。
内容特征结构距离(CFSD)
在风格迁移评估中,内容保真度通常依赖于 LPIPS 距离。然而,由于 LPIPS 利用的是 AlexNet [21] 预训练的特征空间,该网络是为分类任务在 ImageNet [8] 上预训练的,且已知偏向纹理特征 [13]。因此,图像的风格信息可能会影响 LPIPS 得分。为了减轻风格影响,我们进一步引入了内容特征结构距离(CFSD),这是一种仅考虑图像块之间空间相关性的距离度量。
具体而言,我们首先定义图像块特征之间的相关图如下。对于给定图像 ,我们通过 VGG19 [41] 网络的 conv3 层提取特征图
,其中 h 和 w 为图像的高和宽,c 为通道数。然后,我们计算图像块的相似性图
,其中
,表示每一对特征之间的相似度。接着,为了计算两个图像块相似性图之间的距离,我们将单个图像块与其他图像块之间的相似性建模为一个概率分布,并应用 softmax 操作。最终,相关图 S被表示为:
其中 为第 i 个图像块与其他图像块之间的相似性图。
然后,CFSD 被定义为两个相关图之间的 KL 散度。对于我们的实验,我们计算内容图像的相关图 和风格化图像的相关图
之间的 CFSD,公式如下:
这可以有效地衡量风格迁移过程中内容的空间结构保留情况。
4.3 定量比较
我们通过与十二种最先进的方法进行比较来评估我们提出的方法,包括九种传统风格迁移方法(AesPA-Net [17]、CAST [55]、StyTR² [10]、EFDM [54]、MAST [9]、AdaAttN [30]、ArtFlow [2]、AdaConv [6]、AdaIN [18])和三种基于扩散的风格迁移方法(DiffuseIT [23]、InST [56]、DiffStyle [19]),这些方法的输入都是风格图像。我们使用所有基线方法的公开实现,并采用它们推荐的配置。
与传统风格迁移方法的比较
如表 1 所示,我们的方法在 ArtFID 上大大超越了传统风格迁移方法,ArtFID 已知与人类偏好高度一致。此外,我们的方法记录了最低的 FID,这意味着风格化图像与目标风格高度相似。在内容保真度指标方面,我们的方法在 CFSD 和 LPIPS 两个方面都表现优越。我们指出,针对 CFSD,我们的方法显著低于其他方法,CFSD 只考虑图像块的空间相关性。
此外,我们还强调,通过调整 ,我们的方法能够任意调整风格迁移的程度,并且在我们匹配 LPIPS(内容)值的情况下,我们的方法在 FID(风格)方面显著超过了所有其他方法(见图 10)。
与基于扩散的风格迁移方法的比较
我们的算法在 LPIPS、FID 以及它们的组合(ArtFID)上大幅超越了其他方法,如表 1 所示。对于扩散模型来说,一个重要的因素是其运行时间,因为它们在合成一张图像时需要多个步骤,且需要不可避免的时间开销。因此,我们在单个 TITAN RTX GPU 上测量了内容和风格图像的推理时间,如表 2 所示。我们的方法总共需要 12.4 秒,其中 8.2 秒用于 DDIM 反演,4.2 秒用于采样。实验结果表明,我们的方法显著快于其他方法,即便使用大规模的扩散模型。这个更快的速度得益于我们方法在 DDIM 反演过程中可以使用更小的步数,并且我们额外利用了反演步骤中收集的特征,大大减少了内容和风格完美反演的必要性。
4.4 定性比较
与传统风格迁移方法的比较
如图 6 所示,我们观察到我们的方法能够高度保留内容图像的结构信息,同时也很好地传递了风格。例如,在第三行中,我们的方法保留了桥梁的结构,而其他基线方法则在保留结构或传递风格方面遇到了困难。我们还在图 7 放大细节的定性比较。
与基于扩散的风格迁移方法的比较
我们还将我们的方法与最近的基于扩散的风格迁移基线方法 [56, 19, 24] 进行了比较。如图 6 所示,我们的方法成功地将风格转移到内容上。另一方面,基线方法通常丢失了内容的结构或未能成功转移风格,尤其是在给定任意内容和风格图像时。例如,DiffuseIT 和 DiffStyle 在生成形状和视觉上合理的图像时遇到困难,或者丢失了原始内容。不同的是,InST 可以合成逼真的图像,但在转移风格(第 1 行)或改变内容时(第 2 和第 3 行)仍然存在问题。
4.5 消融实验
为了验证提出的各个组件的有效性,我们进行了定量和定性的消融研究。如图 8 和表 3 所示,风格注入在指导图像的风格和内容方面具有重要意义(配置 B)。此外,初始潜在的 AdaIN 在风格的色调传递方面发挥了重要作用(配置 D)。注意力温度缩放则负责增强合成结果的质量,如锐化细节和解决模糊问题。例如,注意力温度缩放可以共同降低 FID 和 LPIPS。为了进行更详细的分析,我们提供了在变化注意力缩放参数 时的风格与内容的权衡定量指标,如图 10(b)所示。实验结果表明,注意力缩放有效降低了 FID 和 LPIPS,证明了其在保留内容和风格迁移能力方面的效果(
与
的对比)。
4.6 额外分析
内容与风格的权衡
我们提出的方法通过调整参数 来灵活地控制内容与风格保真度之间的权衡。具体来说,我们在
的取值范围 [0.3, 1] 内以 0.1 的步长变化时,计算了 FID 和 LPIPS。如图 10(a) 所示,我们的方法在内容与风格保真度的所有范围内都超越了基线方法。这个结果表明,当我们通过调整
来匹配风格或内容度量时,我们的方法显著优于其他方法。需要注意的是,虚线表示我们在表 1 中报告的模型。
我们还通过调整 合成图像,来可视化风格与内容权衡的效果。如图 9 所示,较低的
强烈反映了风格,但会丧失给定图像的内容,反之亦然。这一特点表明,用户可以根据个人偏好调整风格的程度。
对 τ\tauτ 值的研究
我们观察到,随着 的逐渐增加,风格迁移的性能有所提升,尽管其效果随着 τ\tauτ 的增大变得逐渐变小,如图 10(b) 所示。这一结果表明,注意力温度缩放通过简单调整注意力图的幅度,能够有效增强风格迁移的效果。
与文本引导风格迁移的比较
我们还将我们的方法与基于文本输入的风格迁移方法 [44, 22] 进行了比较。由于文本引导的风格迁移方法通常会大幅度修改风格,我们在该实验中使用 。由于文本条件几乎无法包含风格图像中的所有信息(如纹理和色调),因此转移结果与目标风格的相似度较低,如图 11 所示。相反,我们验证了我们的方法成功地以高保真度转移了风格。