图像编辑技术的新篇章：基于扩散模型的综述

本文链接：https://blog.csdn.net/weixin_44292902/article/details/139886778

人工智能咨询培训老师叶梓转载标明出处

在人工智能的浪潮中，图像编辑技术正经历着前所未有的变革。随着数字媒体、广告、娱乐和科学研究等领域对高质量图像编辑需求的不断增长，传统的图像编辑方法已逐渐无法满足日益复杂的视觉内容创作需求。尤其是在AI生成内容（AIGC）的背景下，如何利用人工智能技术对图像进行高效、精准的编辑，已成为当前研究的热点问题。尽管基于学习算法的图像编辑技术取得了显著进展，但仍存在诸多挑战，例如模型的泛化能力、编辑的自然性、以及用户意图的准确捕捉等。此外，现有的图像编辑方法往往需要大量的训练数据和计算资源，这在实际应用中可能并不总是可行。为了克服这些问题，本文将重点探讨一种新兴的图像编辑技术——基于扩散模型的图像编辑方法。

基于扩散模型的图像编辑研究出版物的统计概览，分为三个部分：学习策略（Top）、输入条件（Middle）、编辑任务（Bottom）

什么是扩散模型？

扩散模型，作为生成人工智能领域的一项突破性技术，其灵感来源于非平衡热力学的原理。这些模型通过逐步向数据样本中添加噪声，将它们从原始分布转换为预定义的、通常更简单的分布，如高斯分布，然后通过迭代过程逆转这一过程，以生成与原始数据分布相匹配的数据。与传统的生成模型相比，扩散模型的特点是它们在迭代时间步骤中动态执行，涵盖前向和后向的时间运动。

这种模型的前向扩散过程将数据分布转换为高斯分布，而反向扩散过程的目标是学习前向过程的逆过程，以生成与原始未修改数据样本紧密对齐的分布。优化策略涉及最小化前向和后向序列的联合分布之间的Kullback-Leibler散度，这为模型提供了一个变分界限，用于指导学习过程中的参数更新。扩散模型还能够通过特定的反转方案将真实图像反转到相应的噪声潜在空间，为图像编辑提供了强大的基础。

图像编辑的分类

图像编辑任务可以根据编辑的性质被分为语义编辑、风格编辑和结构编辑三大类。图像编辑任务的分类反映了编辑目标的不同层面，指导了模型的设计和应用策略。

语义编辑关注于图像内容和叙述的实质性改变。这类任务包括在图像中添加或移除对象、替换现有元素、更改背景以及调整图像中的情感表达。例如，用户可能希望在风景照片中添加一只飞鸟，或者从集体照片中移除某个人物。这些编辑直接影响到图像所讲述的故事和传达的情境。

风格编辑着重于图像的视觉风格和审美特征的调整。这种编辑不改变图像的基本内容，而是改变其艺术表现形式，如色彩、纹理或整体风格。用户可能想要将一幅风景画转换为梵高风格的画作，或者改变一张照片的色调以匹配特定的情绪氛围。

结构编辑涉及对图像中元素的空间排列、位置、视点和特性的改动。这类编辑强调场景中对象的组织和展示方式，如移动对象位置、改变对象的大小和形状、调整对象的姿态或视角。例如，用户可能希望在室内场景中重新布置家具，或者改变建筑物的视角以展现不同的外观。

这种多维度的分类不仅帮助我们理解图像编辑的不同需求，也为扩散模型的应用提供了一个清晰的框架。通过深入分析这些类别，我们可以更准确地评估和设计扩散模型的性能，确保它们能够满足不同编辑任务的特定需求。

基于扩散模型的图像编辑方法的全面分类，从多个角度（如训练、测试时微调、无需训练和微调）对方法进行了颜色编码，并列出输入条件和任务能力

基于训练的方法

基于训练的方法在扩散模型的图像编辑中占据显著地位，这些方法通过稳定训练扩散模型和有效建模数据分布，为多种编辑任务提供可靠性能。具体可以分为几类：弱监督下的领域特定编辑、自监督的参考和属性引导、全监督的指令性编辑以及弱监督的伪目标检索。

弱监督下的领域特定编辑策略针对特定领域的小规模数据集进行训练，以解决大规模数据集训练资源消耗大的问题。例如，在处理人脸或特定动物图像的数据集时，研究者们通过弱监督的方式，即不需要精确的标签信息，而是利用数据集中的固有结构，来训练模型识别和编辑图像。这种方法使得模型能够在资源有限的情况下学习到有效的编辑策略。

两种代表性的CLIP引导方法DiffusionCLIP和Asyrp的训练流程的对比

通过自监督的参考和属性引导方法，研究者们开发了一种无需外部标注信息的机制，直接从图像本身提取参考和属性信息作为训练条件。例如，通过使用图像中的某个区域作为参考，模型学习如何根据这个参考合成或编辑图像的其他部分。这种方法充分利用了图像内部的结构信息，提高了模型的自适应性和灵活性。

全监督下的教学式编辑策略采用了一种更接近人类交流方式的指令来引导编辑过程。与传统的基于描述的编辑不同，这种策略使用直接的指令，如“去除帽子”或“改变天空颜色”，来告诉模型需要执行的具体操作。这种方式使得用户可以更自然、直观地与模型交互，提高了编辑过程的准确性和可控性。

弱监督下的伪目标检索方法面对的挑战是如何在缺乏精确编辑结果的情况下训练模型。这类方法通过检索最符合指令描述的图像作为伪目标，或者使用CLIP模型的评分作为优化目标，来指导模型的学习过程。这种方法允许模型在没有明确编辑结果的情况下，通过学习如何更好地接近目标描述来进行优化。

这些基于训练的方法展示了扩散模型在图像编辑任务上的多样性和适应性，它们通过不同的监督策略，实现了从简单到复杂的各种编辑任务，极大地扩展了图像编辑的可能性和应用范围。随着这些方法的不断发展和完善，未来的图像编辑技术将更加精准、高效，并能更好地满足用户的个性化需求。

测试时微调方法

在图像编辑的领域，测试时微调方法提供了一种在模型部署后进一步提升性能的策略。这些方法在模型的推理阶段对模型进行微调，以适应特定的编辑任务和用户需求。

去噪模型微调是最直接的一种测试时微调方法。通过在特定的图像或图像集合上微调整个去噪网络，可以使模型更好地学习图像的特征，并更准确地响应文本提示或编辑指令。例如，UniTune和Custom-Edit等方法通过在单个基础图像上微调扩散模型，鼓励模型生成与基础图像相似的图像，同时在采样阶段使用修改过的采样过程，以平衡对基础图像的忠实度和对编辑指令的对齐。

嵌入微调则专注于优化文本或空文本嵌入，以更好地整合嵌入与生成过程，实现更精确的编辑结果。空文本嵌入微调的目标是解决DDIM反转中的重建失败问题，通过在采样过程中微调空文本嵌入，减少采样轨迹与反转轨迹之间的距离，从而提高重建性能。而文本嵌入微调则通过优化从输入文本派生的嵌入，使编辑后的图像更符合条件特征。

超网络引导的方法通过引入一个自定义网络，来更好地符合特定的编辑意图。例如，StyleDiffusion和InST等方法使用映射网络或多层交叉注意力机制，将输入图像的特征映射到与文本提示嵌入空间对齐的嵌入空间，从而实现文本-图像交互。

潜在变量优化是另一种微调技术，它直接优化图像的潜在变量，而不是优化生成器的参数或嵌入的条件参数。这种方法通过引入特定的损失函数和中间层的特征，使用预训练的扩散模型执行图像翻译，而无需成对的训练数据。

混合微调结合了上述各种微调方法，可以是顺序的，也可以是同时进行的集成工作流程。这种复合微调方法可以实现针对性和有效的图像编辑。例如，Imagic和LayerDiffusion等方法通过结合文本嵌入优化和去噪模型微调，提高了模型在图像重建和编辑方面的性能。

测试时微调方法为扩散模型提供了一种灵活的改进途径，可以根据具体的应用场景和用户需求，快速调整模型的行为，实现更加精细和个性化的图像编辑效果。随着这些技术的不断发展，未来的图像编辑工具将更加智能和适应性强。

无需训练和微调的方法

在图像编辑技术的发展中，无需训练和微调的方法代表了一种快速且成本效益高的范式，因为它们避免了在编辑过程中对模型进行时间和资源密集型的训练或微调。这些方法直接利用预训练模型的潜力，通过不同的策略实现对图像的精确编辑。

输入文本优化标志着在图像编辑领域中，文本到图像翻译机制的重要进步。这种方法通过改善文本嵌入和简化用户输入，确保图像的修改既准确又符合上下文。它允许概念性的修改和直观的用户指令，消除了对复杂模型修改的需求。例如，通过利用扩散先验模型来执行CLIP图像嵌入空间中的概念编辑，可以实现更细腻和上下文感知的图像编辑。

反转/采样修改是无需训练和微调方法中常用的技术。这些方法通过修改反转和采样公式来改善重建能力。例如，直接反转方法通过改变源提示到目标提示来编辑真实图像，展示了处理多样化任务的能力。尽管如此，它仍然面临重建失败的问题，因此出现了多种方法来改进反转和采样公式，以提高重建性能。

注意力修改方法通过增强注意力层中的操作来增强图像编辑。这些方法通过识别并利用注意力层中的固有原理，然后通过修改注意力操作来进行编辑。例如，P2P方法通过识别交叉注意力层在控制图像布局和提示词空间关系中的关键作用，提供了一个仅依赖于文本输入的直观提示到提示编辑框架。

掩码引导在基于扩散的图像编辑中代表了一种增强图像编辑的技术。这些方法使用掩码来增强去噪效率，通过选择性处理图像区域来有效减少计算需求并提高整体效率。掩码增强的去噪效率方法通过利用掩码在交叉注意力层中引导特定区域的编辑，从而提高编辑的精度和速度。

多噪声重定向是预测不同方向的多个噪声，然后将它们重定向到单个噪声的过程。这种方法的优势在于能够使单个噪声统一多个不同的编辑方向，从而更有效地满足用户的编辑需求。例如，通过语义引导的噪声重定向方法，可以在采样过程中更精细地控制图像内容。

这些无需训练和微调的方法，以其灵活性和高效性，在图像编辑领域中展现出巨大的潜力。它们为用户提供了一种快速实现个性化图像编辑的途径，同时为研究人员提供了探索新的可能性和创新应用的空间。

图像修复和扩展

图像修复和扩展是图像编辑中的两个重要子领域，它们专注于填补图像中的缺失部分或扩展图像的边界，以创造出无缝的视觉效果。

视觉上比较了传统的基于上下文的修复（顶部）和多模态条件修复（底部），展示了两种方法的样本

传统基于上下文的修复：基于监督训练的修复方法和零样本学习方法。在监督训练中，模型通过成对的损坏和完整图像进行学习，以掌握如何根据图像的上下文信息填补缺失区域。例如，Palette模型通过条件扩散模型来处理图像到图像的转换任务，它使用低质量参考图像与去噪结果的直接连接作为噪声预测的条件。而在零样本学习中，模型尝试从未损坏的图像部分提取结构和纹理，以补充缺失区域的内容，保持全局内容的一致性。这种方法不需要成对的训练数据，而是依赖于模型对图像内容的内在理解。

多模态条件修复 ：即使用随机掩码训练和精确控制条件的方法。这些方法通过引入用户指定的多模态条件，如文本描述、分割图或参考图像，来指导修复过程。例如，GLIDE和Stable Diffusion等模型通过随机生成的掩码以及掩码图像和完整图像的描述进行训练，使模型能够利用未掩码区域的信息。为了提供更精确的控制，一些方法如SmartBrush和Imagen Editor通过引入精度因子或使用对象检测器生成的掩码，来实现对修复内容的精确控制。

多模态条件修复的另一个重要方向是利用预训练的扩散模型，通过整合各种技术来处理特定的修复任务。例如，Blended Diffusion和Inpaint Anything等模型通过结合CLIP计算和预训练的扩散模型，实现了在用户界面友好性和灵活性方面的显著提升。

评估

在任务选择方面，研究者们根据现有方法的能力精心挑选了一系列编辑任务。这些任务覆盖了从简单的对象编辑到复杂的场景变化，旨在全面考察不同图像编辑方法的性能。

在数据集构建上，研究团队精选了一系列高质量的图像。为每张图像配备了详尽的源文本描述、目标描述以及编辑指令，这样做的目的是为了确保评估过程中的多样性和适用性，让评估结果更具有代表性和广泛性。

在度量设计和选择上，研究者们认识到传统的评估方法可能无法充分捕捉编辑结果的质量。为了解决这一问题，他们提出了LMM Score，这是一种创新的量化评估指标。LMM Score利用了大型多模态模型（LMMs）的先进视觉-语言理解能力，以评估不同任务上的编辑性能。这种新指标的引入，旨在更准确地反映图像编辑结果与用户指令之间的一致性，为图像编辑领域的研究提供了一个更为精确的评估工具。

研究者选择了几种不同的基于扩散模型的图像编辑方法，并在EditEval基准上对它们进行了测试。在性能比较环节，研究者们细致地计算了每种方法在七个编辑任务上的平均得分和标准差。结果显示，并没有单一的方法能够在所有任务上都取得最佳性能，这反映出图像编辑方法的多样性以及它们在特定应用场景下的适用性。

为了进一步验证LMM Score这一评估指标的有效性，研究者们将其得分与用户研究的结果进行了细致的比较。通过计算LMM Score与用户评分之间的皮尔逊相关系数，研究者们发现两者之间存在显著的正相关性。这一发现表明，LMM Score不仅能够作为一项客观的评估工具，而且能够很好地反映用户的主观偏好和评价，从而为图像编辑方法的评估提供了一个可靠的量化指标。