论文阅读《Imagic: Text-Based Real Image Editing with Diffusion Models》

最新推荐文章于 2024-07-22 16:24:23 发布

大龙唉

最新推荐文章于 2024-07-22 16:24:23 发布

阅读量230

点赞数

分类专栏：论文阅读文章标签：论文阅读

本文链接：https://blog.csdn.net/weixin_44001371/article/details/133870128

版权

论文阅读专栏收录该内容

7 篇文章 0 订阅

订阅专栏

Abstract

以文本为条件的图像编辑最近引起了相当大的兴趣。然而，目前大多数方法都局限于以下几种情况之一：特定的编辑类型（如对象叠加、样式转移）、合成生成的图像，或者需要输入多个共同对象的图像。在本文中，我们首次展示了对单张真实图像进行复杂（如非刚性）文本语义编辑的能力。例如，我们可以改变图像中一个或多个物体的姿态和构成，同时保留其原始特征。我们的方法可以让一只站立的狗坐下，让一只鸟张开翅膀，等等。- 每个物体都在用户提供的单张高分辨率自然图像中。与以往的工作不同，我们提出的方法只需要一张输入图像和一个目标文本（所需编辑）。它在真实图像上运行，不需要任何额外输入（如图像遮罩或对象的其他视图）。我们的方法名为 Imagic，它利用预先训练好的文本到图像扩散模型来完成这项任务。它能生成与输入图像和目标文本一致的文本嵌入，同时对扩散模型进行微调，以捕捉特定图像的外观。我们在不同领域的大量输入上展示了 Imagic 的质量和多功能性，展示了大量高质量的复杂语义图像编辑，所有这些都在一个统一的框架内完成。为了更好地评估性能，我们引入了一个极具挑战性的图像编辑基准–TEdBench。我们进行了一项用户研究，结果表明，在 TEdBench 上，与以前的主要编辑方法相比，人类评分者更喜欢 Imagic。

1. Introduction

长期以来，对真实照片进行非繁琐的语义编辑一直是图像处理领域的一项有趣任务[41]。近年来，由于基于深度学习的系统取得了长足进步，这项任务引起了人们的极大兴趣。当所需的编辑通过简单的自然语言文本提示来描述时，图像编辑就变得尤为重要，因为这与人类的交流方式非常吻合。针对基于文本的图像编辑开发了许多方法，并取得了可喜的成果和不断的改进[8, 10, 33]。然而，目前领先的方法在不同程度上都存在几个缺点：(i) 它们仅限于特定的编辑，如在图像上涂画、添加对象或转换风格 [6，33]；(ii) 它们只能对特定领域的图像或合成生成的图像进行操作 [20，43]；或 (iii) 除了放入的图像外，它们还需要辅助输入，如指示所需编辑位置的图像遮罩、同一主题的多幅图像或描述原始图像的文本 [6，17，39，47，51]。

在本文中，我们提出了一种语义图像编辑方法，可以缓解上述所有问题。只需输入一张待编辑的图像和一个描述目标编辑的文本提示，我们的方法就能对真实的高分辨率图像进行复杂的非刚性编辑。生成的图像输出与目标文本完全一致，同时保留了原始图像的整体背景、结构和构图。例如，我们可以让两只鹦鹉接吻，或者让一个人竖起大拇指，如图 1 所示。我们的方法被称为 Imagic，它首次展示了基于文本的语义编辑，可对单张真实的高分辨率图像进行如此复杂的操作，包括编辑多个对象。此外，Imagic 还能进行多种编辑，包括样式更改、颜色更改和对象添加。

为了实现这一目标，我们利用了文本到图像扩散模型最近取得的成功[47, 50, 53]。扩散模型是最先进的强大生成模型，能够生成高质量的图像[16,22]。当以自然语言文本提示为条件时，它们能够生成与要求文本完全一致的图像。在我们的工作中，我们将它们用于编辑真实图像，而不是合成新图像。如图 3 所示，我们采用了简单的三步流程：首先优化文本嵌入，使其生成的图像与输入图像相似。然后，我们微调预先训练好的生成式扩散模型（以优化后的嵌入为条件），以更好地重建输入图像。最后，我们在目标文本嵌入和优化嵌入之间进行线性插值，得到一个结合了输入图像和目标文本的表示。然后，将此表示法与微调模型一起传递给生成式扩散过程，从而输出最终的编辑图像。

我们进行了多次实验，并将我们的方法应用于不同领域的大量图像。我们的方法输出的图像质量很高，既与输入图像高度相似，又能与目标文本很好地对齐。这些结果展示了 Imagic 的通用性、多功能性和质量。此外，我们还进行了一项消融研究，强调了我们方法中每个元素的效果。与文献中推荐的最新方法相比，Imagic 的编辑质量和忠实于原始图像的程度明显更高，尤其是在执行复杂的非刚性编辑任务时。一项人类感知评估研究进一步证明了这一点，在一项名为 TEdBench（文本编辑基准）的新基准上，与其他方法相比，评分者更青睐 Imagic。我们将我们的主要贡献总结如下：

1. 我们提出了 Imagic，这是第一种基于文本的语义图像编辑技术，可对单个真实输入图像进行复杂的非刚性编辑，同时保留其整体结构和组成。
2. 我们展示了两个文本嵌入序列之间具有语义意义的线性插值，揭示了文本到图像扩散模型的强大合成能力。
3.  我们介绍了 TEdBench--一种新颖且具有挑战性的复杂图像编辑基准，通过它可以比较不同的基于文本的图像编辑方法。

2. Related Work

近年来，随着图像合成质量的提高[26-29]，许多作品利用预训练生成式对抗网络（GAN）的潜在空间来执行各种图像处理[3,19,36,43,56,57]。在真实图像上应用此类处理的方法有多种，包括基于优化的方法 [1, 2, 25]、基于编码器的方法 [4, 48, 64] 以及根据输入调整模型的方法 [5, 9, 15, 49]。除了基于 GAN 的方法，一些技术还利用其他基于深度学习的系统进行图像编辑[8, 12]。

最近，扩散模型被用于类似的图像处理任务，并取得了显著效果。SDEdit [38] 在图像中添加中间噪声（可能由用户提供的笔触增强），然后使用以所需编辑（仅限于全局编辑）为条件的扩散过程对图像进行去噪处理。DDIB [62] 使用带有源类（或文本）的 DDIM 反转对输入图像进行编码，然后以目标类（或文本）为条件进行解码，以获得编辑版本。DiffusionCLIP [33] 利用语言视觉模型梯度、DDIM 反转 [59] 和模型微调，使用特定领域的扩散模型编辑图像。还有人建议通过合成用户提供的掩码中的数据来编辑图像，同时保持图像的其他部分完好无损[6, 14, 39]。Liu 等人[37]用文本和图像引导一个扩散过程，合成与给定图像相似并与给定文本对齐的图像。Hertz 等人[20]通过操作交叉注意力层来改变文本到图像的扩散过程，对生成的图像提供更精细的控制，并能在 DDIM 反转提供有意义的注意力图的情况下编辑真实图像。文本反转[17] 和 DreamBooth [51]在给定 3-5 幅主体图像和目标文本（而不是编辑单幅图像）的情况下合成给定主体的新视图，其中DreamBooth 需要额外生成的图像来微调模型。在这项工作中，我们提供了第一款基于文本的语义图像编辑工具，该工具可在单张真实图像上进行操作，保持图像的高保真性，并根据单个自由形式的自然语言文本提示进行非刚性编辑。

3. Imagic: Diffusion-Based Real Image Editing

3.1. Preliminaries
扩散模型[22, 58, 60, 66]是生成模型的一个系列，由于其在图像生成方面的先进性[16, 31, 61, 65]，最近受到了广泛的关注，并被应用于各种下游应用中，如图像复原[30, 52]、对抗净化[11, 40]、图像压缩[63]、图像分类[69]等[13, 18, 32, 44, 55, 67]。

这些模型的核心前提是初始化一个随机采样的噪声图像 $\mathbf{x}_{T} \sim \mathcal{N}(0, \mathbf{I})$ ，然后以可控的方式迭代改进，直到合成为一个逼真的图像 $x_0$ 。每个中间样本 $x_t$ （对于 $\in\{0, \ldots, T\}$ ）都满足以下条件
在这里插入图片描述
其中 $0=\alpha_{T}<\alpha_{T-1}<\cdots<\alpha_{1}<\alpha_{0}=1$ 是扩散时间表的超参数， $\boldsymbol{\epsilon}_{t} \sim \mathcal{N}(0, \mathbf{I})$ 。每个细化步骤包括在当前样本 $x_t$ 上应用神经网络 $f_{\theta}\left(\mathbf{x}_{t}, t\right)$ ，然后进行随机高斯噪声扰动，得到 $x_{t-1}$ 。网络的训练目标很简单，就是 $f_{\theta}\left(\mathbf{x}_{t}, t\right) \approx \boldsymbol{\epsilon}_{t}$ [22, 58]。这使得学习到的图像分布与目标分布高度保真，从而实现恒星生成性能。

这种方法可以推广到条件分布的学习中–通过对辅助输入 y 对去噪网络进行调节，网络 $f_{\theta}\left(\mathbf{x}_{t}, t, \mathbf{y}\right)$ 及其产生的扩散过程就能从以y为条件的数据分布中忠实采样。条件输入 y 可以是所需图像的低分辨率版本 [54] 或类别标签 [23]。此外，y 也可以是描述所需图像的文本序列 [7、47、50、53]。通过结合大语言模型（LLMs）[46] 或混合视觉语言模型[45]的知识，这些文本到图像的扩散模型释放出一种新的能力–用户只需使用描述所需场景的文本提示，就能生成逼真的高分辨率图像。在所有这些方法中，低分辨率图像首先使用生成扩散过程合成，然后使用附加辅助模型将其转换为高分辨率图像。
3.2. Our Method
给定输入图像 x 和描述所需编辑的目标文本，我们的目标是以满足给定文本的方式编辑图像，同时最大限度地保留 x 中的细节（如背景中的小细节和图像中物体的身份）。为了实现这一目标，我们利用扩散模型的文本嵌入层进行语义处理。与基于 GAN 的方法类似[43,49,64]，我们首先要找到有意义的表征，将其输入生成过程后，就能生成与输入图像相似的图像。然后，我们对生成模型进行微调，以更好地重建输入图像，最后对潜在表征进行处理，以获得编辑结果。

更正式地说，如图 3 所示，我们的方法包括 3 个阶段：(i) 我们优化文本嵌入，在目标文本嵌入附近找到与给定图像最匹配的文本嵌入；(ii) 我们微调扩散模型，使其与给定图像更加匹配；(iii) 我们在优化嵌入和目标文本嵌入之间进行线性插值，以找到一个既能忠实于输入图像又能与目标文本对齐的点。下面我们将详细介绍每个步骤。

Text embedding optimization
目标文本首先经过文本编码器 [46]，编码器输出相应的文本嵌入 $e_{tgt}\in \mathbb{R} ^{T\times d}$ ，其中 T 是给定目标文本中的标记数，d 是标记嵌入维度。然后，我们冻结生成扩散模型 $f_θ$ 的参数，并使用去噪扩散目标 [22] 优化目标文本嵌入 $e_{tgt}$ ：在这里插入图片描述
其中， $\sim \text { Uniform }[1, T]$ ， $x_t$ 是使用 $\epsilon \in \mathcal{N} (0,\mathbf{I} )$ 和公式 1 得到的 x（输入图像）的噪声版本，θ 是预先训练好的扩散模型权重。这样就得到了与输入图像尽可能匹配的文本嵌入。我们运行这一过程的步骤相对较少，以保持接近初始目标文本嵌入，从而获得 $e_{opt}$ 。这种接近性使得嵌入空间中的线性插值变得有意义，而对于距离较远的嵌入，线性插值并不表现出线性行为。

Model fine-tuning
需要注意的是，优化后的嵌入值 $e_{opt}$ 在通过生成式扩散过程时，并不一定能完全引导输入图像 x，因为我们的优化运行步骤较少（见图 7 左上图）。因此，在我们方法的第二阶段，我们使用等式 2 中提出的相同损失函数来优化模型参数 θ，同时冻结优化后的嵌入，从而弥补这一差距。

这一过程会移动模型，以适应 $e_{opt}$ 点的输入图像 x。与此同时，我们会对底层生成方法中的任何辅助扩散模型（如超分辨率模型）进行微调。我们使用相同的重建损失对它们进行微调，但以 $e_{tgt}$ 为条件，因为它们将在编辑后的图像上运行。对这些辅助模型的优化可确保保留基础分辨率中不存在的 x 高频细节。根据经验，我们发现在推理时，向辅助模型输入 $e_{tgt}$ 比使用 $e_{opt}$ 效果更好。

Text embedding interpolation

由于生成式扩散模型经过训练，可以在优化嵌入 $e_{opt}$ 的情况下完全重现输入图像 x，因此我们利用该模型沿着目标文本嵌入 $e_{tgt}$ 的方向前进，应用所需的编辑。对于给定的超参数 $\eta \in [0,1]$ ，我们可以得到
在这里插入图片描述
即表示所需的编辑图像的嵌入。然后，我们使用微调模型，以 $\bar{e}$ 为条件，应用基础生成扩散过程。这样就得到了低分辨率的编辑图像，然后使用微调辅助模型，以目标文本为条件，对其进行超分辨率处理。这一生成过程将输出最终的高分辨率编辑图像 $\bar{x}$ 。

3.3. Implementation Details
我们的框架具有通用性，可以与不同的生成模型相结合。我们使用两种最先进的文本到图像生成扩散模型进行了演示： Imagen [53] 和 Stable Diffusion [50]。

Imagen[53]由 3 个独立的文本条件扩散模型组成：(i) 一个生成 64 像素图像的扩散模型；(ii) 一个将 64 像素图像转化为 256 像素图像的超分辨率（SR）扩散模型；(iii) 另一个将 256 像素图像转化为 1024 像素分辨率的 SR 模型。通过级联这 3 个模型[23]和使用无分类器引导[24]，Imagen 构成了一个强大的文本引导图像生成方案。

我们使用 $64\times 64$ 扩散模型和 Adam [34] 优化器对文本嵌入进行了 100 步优化，学习率固定为 1e-3。然后，我们对 $64\times 64$ 扩散模型进行微调，以优化后的嵌入为条件，继续对输入图像进行 1500 步的 Imagen 训练。与此同时，我们还使用目标文本嵌入和原始图像对 $64\times 64\to 256\times 256$ SR 扩散模型进行了 1500 步微调，以捕捉原始图像的高频细节。我们发现，对 $256\times 256\to 1024\times1024$ 模型进行微调对结果几乎没有影响，因此我们选择使用以目标文本为条件的预训练版本。整个优化过程在两块 TPUv4 芯片上进行，每幅图像大约需要 8 分钟。

然后，我们根据公式 3 对文本嵌入进行插值。由于存在微调过程，使用 $η = 0$ 会生成原始图像，而随着 $η$ 的增加，图像将开始与目标文本对齐。为了保持图像的保真度和目标文本的对齐度，我们选择了一个中间值 $η$ ，通常介于 0.6 和 0.8 之间（见图 9）。然后，我们使用 Imagen [53]，利用其提供的超参数进行生成。我们发现，与随机性更强的 DDPM 方案相比，使用 DDIM [59] 采样方案通常能略微改善结果。

除了 Imagen 之外，我们还利用公开的稳定扩散模型（基于潜在扩散模型 [50]）来实现我们的方法。该模型将扩散过程应用于预先训练好的自动编码器的潜在空间（大小为 $4\times 64\times 64$ ），可处理 $512\times512$ 像素的图像。我们还在潜空间中应用了我们的方法。我们使用 Adam [34]，以 2e-3 的学习率优化文本嵌入 1000 步。然后，我们对扩散模型进行了 1500 步微调，学习率为 5e-7。这一过程在单个 Tesla A100 GPU 上需要 7 分钟。

4. Experiments

4.1. Qualitative Evaluation
我们在不同领域的大量真实图片上应用了我们的方法，图片上的简单文字提示描述了不同的编辑类别，如：风格、外观、颜色、姿势和构图。我们从 Unsplash 和 Pixabay 收集免费使用的高分辨率图片。经过优化后，我们用 8 个随机种子生成每个编辑，并选择最佳结果。如图 1 和补充材料所示，Imagic 能够对一般输入图片和文本进行不同类别的编辑。在图 2 中，我们对同一图像进行了不同文本提示的实验，展示了 Imagic 的多功能性。由于我们使用的底层生成扩散模型是概率性的，因此我们的方法可以为单个图像-文本对生成不同的结果。我们在图 4 中展示了使用不同随机种子进行相同编辑的多个选项，并对每个种子的 $η$ 稍作调整。这种随机性允许用户在这些不同的选项中进行选择，因为自然语言文本提示通常可能是模糊和不精确的。

虽然我们在大部分实验中使用的是 Imagen [53]，但 Imagic 与生成模型的选择无关。因此，我们也使用稳定扩散[50]来实现 Imagic。图 5（以及补充材料）显示，Imagic 也使用稳定扩散技术成功地执行了复杂的非刚性编辑，同时保留了特定图像的外观。此外，随着 $η$ 的变化，Imagic（使用稳定扩散技术）表现出平滑的语义插值特性。我们假设，这种平滑特性是在语义潜空间而非图像像素空间进行扩散过程的副产品。

4.2. Comparisons
我们将 Imagic 与当前领先的通用技术进行了比较，这些技术可对单一输入的真实世界图像进行操作，并根据文本提示对其进行编辑。也就是说，我们将我们的方法与 Text2LIVE [8]、DDIB [62] 和 SDEdit [38] 进行了比较。我们使用 Text2LIVE 默认提供的超参数。我们向它提供了对 target 对象的文本描述（如 “狗”）和一个所需的编辑（如 “坐着的狗”）。对于 SDEdit 和 DDIB，我们使用与我们相同的 Imagen [53] 模型和目标文本提示来应用他们提出的技术。我们保留了 Imagen 的扩散超参数，并针对每幅图像独立选择 SDEdit 的中间扩散时间步，以便在不大幅改变图像内容的情况下实现最佳目标文本对齐。对于 DDIB，我们提供了额外的源文本。

图 6 显示了不同方法的编辑结果。对于 SDEdit 和 Imagic，我们使用不同的随机种子对 8 幅图像进行采样，并显示与目标文本和输入图像对齐度最好的结果。可以看出，我们的方法与输入图像保持了很高的保真度，同时还能恰当地执行所需的编辑。在处理复杂的非刚性编辑任务时，例如让狗坐下，我们的方法明显优于以前的技术。Imagic 首次展示了在单张真实世界图像上应用这种基于文本的复杂编辑。我们将在第 4.3 小节中通过用户研究来验证这一说法。

4.3. TEdBench and User Study
基于文本的图像编辑方法是最近才发展起来的，而 Imagic 则是第一个应用复杂的非刚性编辑方法。因此，目前还没有评估基于文本的非刚性图像编辑的标准基准。我们引入了 TEdBench（文本编辑基准），这是一个新颖的集合，包含 100 对输入图像和目标文本，描述了所需的复杂非刚性编辑。我们希望，TEdBench 作为这项任务的标准化评估集，将使未来的研究受益匪浅。

我们通过在 TEdBench 上进行的一项广泛的人类感知评估研究对 Imagic 的性能进行了定量评估，这项研究是使用 Amazon Mechanical Turk 进行的。研究人员向参与者展示了一张输入图片和一个目标文本，并要求他们从两个选项中选择一个更好的编辑结果，采用的标准做法是双选项强制选择（2AFC）[8,35,42]。可供选择的选项包括我们的编辑结果和基线编辑结果： SDEdit [38]、DDIB [62] 或 Text2LIVE [8]。我们总共收集了 9213 个答案，其结果汇总如图 8 所示。可以看出，评估者对我们的方法表现出强烈的偏好，在所有考虑过的基线中，偏好率都超过了 70%。有关用户研究和方法实施的更多详情，请参阅补充材料。

4.4. Ablation Study
Fine-tuning and optimization
我们使用预先训练的 $64\times 64$ 扩散模型和微调模型生成不同 $η$ 值的编辑图像，以衡量微调对输出质量的影响。我们使用相同的优化嵌入和随机种子，并在图 7 中对结果进行定性评估。在不进行微调的情况下，该方案在 $η = 0$ 时无法完全重建原始图像，而且随着 $η$ 的增加，也无法保留图像的细节。与此相反，微调从输入图像中引入了优化嵌入之外的细节，使我们的方案能在 $η$ 的中间值保留这些细节，从而实现语义上有意义的线性插值。因此，我们得出结论：模型微调对我们方法的成功至关重要。此外，我们还在补充材料中对文本嵌入优化步骤的数量进行了实验。我们的研究结果表明，用较少的步骤优化文本嵌入会限制我们的编辑能力，而优化步骤超过 100 步则几乎不会产生任何附加值。
Interpolation intensity
从图 7 中可以看出，微调会增加模型偏离重建输入图像的 $η$ 值。虽然每个输入图像的最佳 $η$ 值可能会有所不同（因为不同的编辑需要不同的强度），但我们还是试图找出最适合应用编辑的区域。为此，我们用不同的 $η$ 值应用我们的编辑方案，并计算输出结果与目标文本的 CLIP 分数[21, 45]，以及输出结果与输入图像的 LPIPS 分数[68]。我们对 150 个图像-文本输入重复了这一过程，并在图 9 中显示了平均结果。我们发现，当 $η$ 值小于 0.4 时，输出结果与输入图像几乎完全相同。当 $\eta \in [0.6,0.8]$ 时，图像开始发生变化（根据 LPIPS），并与文本更好地对齐（随着 CLIP 分数的增加）。因此，我们认为这一区域最有可能获得令人满意的结果。需要注意的是，虽然 CLIP 分数和 LPIPS 平均能很好地反映文本或图像的对齐情况，但它们是依赖于神经网络骨干的不精确的测量方法，而且它们的值对于每个不同的输入图像-文本对来说都有明显的差异。因此，它们不适合为每个输入自动选择可靠的 $η$ ，也不能忠实地评估编辑方法的性能。

4.5. Limitations
我们发现我们的方法主要有两种失败情况：在某些情况下，所需的编辑应用得非常微妙（如果有的话），因此不能很好地与目标文本对齐。在另一些情况下，编辑应用得很好，但却影响了外在的图像细节，如变焦或摄像机角度。我们在图 10 的第一行和第二行分别展示了这两种失败情况的例子。当编辑应用不够强烈时，增加 $η$ 通常能达到预期效果，但有时会在少数情况下导致原始图像细节的显著损失（对于所有测试的随机种子）。至于变焦和摄像机角度的变化，通常发生在所需的编辑发生之前，因为我们会从较低的 $η$ 值向较大的η值移动，这使得规避它们变得困难。我们在补充材料中演示了这一点，并在 TEdBench 中加入了更多失败案例。

这些局限性可以通过优化文本嵌入或不同的扩散模型，或采用类似 Hertz 等人[20]的交叉注意力控制来缓解。我们将这些方案留待未来工作中考虑。此外，由于我们的方法依赖于预先训练好的文本到图像扩散模型，它继承了该模型的生成限制和偏差。因此，当所需的编辑涉及到生成底层模型的失败案例时，就会产生不需要的人工制品。例如，众所周知，Imagen 对人脸的生成性能不达标[53]。此外，Imagic（和其他编辑方法[8]）所需的优化过程非常缓慢，可能会妨碍它们直接应用于面向用户的应用中。

5. Conclusions and Future Work

我们提出了一种名为 Imagic 的新型图像编辑方法。我们的方法接受单张图像和描述所需编辑的简单文本提示，目的是在应用该编辑的同时最大限度地保留图像细节。为此，我们利用一个预先训练好的文本到图像扩散模型，并用它来找到代表输入图像的文本嵌入。然后，我们对扩散模型进行微调，以更好地适应图像，最后，我们在代表图像的嵌入和目标文本嵌入之间进行线性插值，得到它们之间有语义意义的混合。这样，我们的方案就能利用插值嵌入提供编辑过的图像。与其他编辑方法不同，我们的方法可以产生复杂的非刚性编辑，除了样式或颜色等简单编辑外，还可以根据要求改变图像中物体的姿势、几何形状和/或组成。它只需要用户提供一张图片和一个简单的目标文本提示，而不需要额外的辅助输入，如图片掩码。

我们未来的工作重点可能是进一步改进该方法对输入图像的保真度和身份保持，以及对随机种子和插值参数 $η$ 的敏感性。另一个令人感兴趣的研究方向是开发一种自动方法，为每个编辑请求选择 $η$ 。
Societal Impact
我们的方法旨在利用目标编辑的文字描述对现实世界的图像进行复杂的编辑。因此，它很容易受到基于文本生成模型的社会偏差的影响，尽管这种影响程度比纯生成方法要小，因为我们主要依靠输入图像进行编辑。然而，与其他使用生成模型进行图像编辑的方法一样，这种技术也可能被恶意人士用来合成虚假图像，误导观众。为了减少这种情况，需要进一步研究如何识别合成编辑或生成的内容。

图和表

图 1. Imagic - 编辑单张真实图像。 我们的方法可以在单张真实输入图像上执行各种基于文本的语义编辑，包括高度复杂的非刚性变化，如姿势变化和编辑多个对象。在这里，我们展示了一对 $1024\times 1024$ 的输入（真实）图像，以及经过编辑的输出和各自的目标文本。
在这里插入图片描述
图 2. 对同一图像应用不同的目标文本。 Imagic 可根据输入文本的不同，对同一图像进行不同的编辑。

图 3. Imagic 的示意图。 给定一幅真实图像和一个目标文本提示：（A）我们对目标文本进行编码，得到初始文本嵌入 $e_{tgt}$ ，然后对其进行优化以重建输入图像，得到 $e_{opt}$ ；（B）然后我们对生成模型进行微调，以提高与输入图像的保真度，同时固定 $e_{opt}$ ；（C）最后，我们将 $e_{opt}$ 与 $e_{tgt}$ 进行插值，生成最终编辑结果。
在这里插入图片描述
图 4. 多个编辑选项。 Imagic 利用概率模型，可以用不同的随机种子生成多个选项。
图 5. 平滑插值。 我们可以在优化文本嵌入和目标文本嵌入之间进行平滑插值，随着 $η$ 的增大，输入图像会逐渐向所需文本方向编辑（见补充材料中的 GIF 动画）。
在这里插入图片描述
图 6 方法比较。 我们将 SDEdit [38]、DDIB [62] 和 Text2LIVE [8] 与我们的方法进行了比较。Imagic 成功地应用了所需的编辑，同时很好地保留了原始图像的细节。

图 7. 嵌入插值。 使用预训练模型（上图）和微调模型（下图），在相同种子的情况下改变 $η$ 。
在这里插入图片描述
图 8. 用户研究结果。 与 SDEdit [38]、DDIB [62] 和 Text2LIVE [8] 相比，用户对 Imagic 图像编辑质量的偏好率（含 95% 置信区间）。

图 9 可编辑性与保真度的权衡。 CLIP 分数（目标文本对齐）和 1—LPIPS（输入图像保真度）与 $η$ 的函数关系，150 个输入的平均值。编辑后的图像往往与输入图像和高亮区域的文本相匹配。
在这里插入图片描述
图 10. 失败案例。 与目标文本不够一致（上图），或摄像头视角发生变化（下图）。

大龙唉

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论文阅读《Imagic: Text-Based Real Image Editing with Diffusion Models》

以文本为条件的图像编辑最近引起了相当大的兴趣。然而，目前大多数方法都局限于以下几种情况之一：特定的编辑类型（如对象叠加、样式转移）、合成生成的图像，或者需要输入多个共同对象的图像。在本文中，我们首次展示了对单张真实图像进行复杂（如非刚性）文本语义编辑的能力。例如，我们可以改变图像中一个或多个物体的姿态和构成，同时保留其原始特征。我们的方法可以让一只站立的狗坐下，让一只鸟张开翅膀，等等。- 每个物体都在用户提供的单张高分辨率自然图像中。
复制链接

扫一扫

专栏目录