Text-to-image Diffusion Model文本到图像扩散模型综述

Text-to-image Diffusion Model文本到图像扩散模型综述

论文地址:https://arxiv.org/pdf/2303.07909.pdf

1.Introduction

Text-to-image模型发展如下图所示:

请添加图片描述
开创性工作:AlignDRAW
小规模数据域--基于Gan的方法(黄色):Text-conditional GAN
大规模数据域–自回归方法(蓝色):DALL-E和Parti。自回归的性质使得这些方法计算成本高且误差累积
最新模型–基于diffusion方法(红色):diffusion model

2.diffusion model

Diffusion models(DMs),也被称为diffusion probabilistic models,是一系列生成模型,是用变分推理训练的马尔可夫链。DM的学习目标是为样本生成保留一个有噪声扰动数据的过程,即扩散过程。
denoising diffusion probabilistic model (DDPM)去噪扩散概率模型出现于2020年,其出现主要归功于两个早期尝试:2019年研究的基于分数的生成模型(score-based generative models,SGM)和早在2015年出现的扩散概率模型(score-based generative models,DPM)。

2.1 扩散概率模型(DPM)

DPM是第一个通过估计将数据映射到简单分布的逆转马尔可夫扩散链来建模概率分布的工作。具体来说,DPM 定义了一个前向(推理)过程,该过程将复杂的数据分布转换为更简单的数据分布,然后通过反转该扩散过程来学习映射。

2.2 基于分数的生成模型(SGM)

SGM提出用各种大小的随机高斯噪声扰动数据,以对数概率密度梯度作为得分函数,生成降低噪声水平的样本,并通过估计噪声数据分布的得分函数来训练模型。

2.3 去噪扩散概率模型(DDPMs)

定义为参数化马尔可夫链,在推理过程中从有限转换的噪声中生成图像。在训练过程中,转换核是在用噪声扰动自然图像的相反方向上学习的,其中噪声被添加到每一步的数据中,并被估计为优化目标。
(1)正向传递(Forward pass)
在前向传递中,DDPM 是一个马尔可夫链,其中高斯噪声在每个步骤中添加到数据中,直到图像被破坏。给定数据分布 x0 ∼ q(x0),DDPM 连续生成 xT 和 q(xt | xt−1)。
Alt
其中 T 和 βt 分别是扩散步骤和超参数。为了简单起见,只讨论高斯噪声作为转换核的情况,在等式中表示为 N。

在这里插入图片描述
可以在任意步骤 t 获得噪声图像,如下所示
在这里插入图片描述

(2)反向传递(Reverse pass)
从pθ(T)开始,希望生成的pθ(x0)能够服从真实的数据分布q(x0)。因此,模型的优化目标如下
在这里插入图片描述
考虑到DDPM和SGM在优化目标上的相似性,从随机微分方程的角度进行统一,允许更灵活的采样方法。

  • 类标签改进

    生成对抗模型 (GAN) 的早期工作表明,类标签可以提高图像合成质量,条件GAN(Conditional GAN)将类标签作为附加输入层提供给模型,在图像生成中使用类条件归一化数据。AC-GAN 添加了辅助分类器损失,标签可以通过提供条件输入或通过辅助分类器指导图像合成来帮助提高 GAN 图像合成质量。

    Diffusion model引入类条件归一化和辅助分类器。为了区分标签信息是添加为条件输入还是带有梯度的辅助损失,定义条件扩散模型和引导扩散模型如下。

    条件扩散模型(Conditional diffusion model):条件扩散模型通过将附加信息(例如类和文本)作为模型输入来学习。

    引导扩散模型(Guided diffusion model):在引导扩散模型的训练过程中,类指导梯度(例如通过辅助分类器)参与采样过程。

  • 无分类器指导

    与利用额外分类器的分类器引导扩散模型不同,guidance可以通过生成模型本身获得而无需分类器,称为无分类器指导。具体来说,无分类器指导联合训练一个同时具有无条件分数估计θ(x) 和条件 θ(x, c) 的模型,其中 c 表示类别标签。空标记 ∅ 被放置在无条件部分中作为类标签,即 θ(x) = θ(x, ∅)。无分类器模型提供了更多模式,例如,文本作为文本到图像模型中的指导。

3.Text-to-image diffusion model

根据扩散先验的执行位置(即像素空间或潜在空间)对其进行粗略分类。

3.1 像素空间框架

第一类方法直接从高维像素级别生成图像,包括 GLIDE 和 Imagen。

GLIDE通过用文本替换原始类标签,在 T2I 中采用无分类器指导。 GLIDE也尝试了 CLIP 指导,但与无分类器指导相比,人工评估效果较差。文本编码器被设置为具有 24 个宽度为 2048(大约 1.2B 个参数)的残差块的transformer。GLIDE 在 FID 和人工评估方面均优于 DALL-E。

Imagen使用预训练语言模型对文本进行编码,无分类器指导来生成图像。 GLIDE 将文本编码器、扩散先验与成对的图像文本数据一起训练,而 Imagen采用预训练和frozen大型语言模型作为文本编码器。frozen预训练编码器的权重有助于离线文本嵌入,从而减少了文本到图像扩散先验在线训练的计算负担。此外,文本编码器可以在图像文本数据(例如 CLIP)或纯文本语料库(例如 BERT、GPT和 T5)预训练。使用不同的文本预训练模型作为文本编码器,增加语言模型的大小比扩大 Imagen 中的扩散模型大小更能提高图像保真度和图像-文本对齐水平。

3.2 潜在空间框架

另一类首先将图像压缩到低维空间,然后在这个潜在空间上训练扩散模型。属于潜在空间类的代表性方法包括Stable Diffusion、VQ-diffusion和 DALL-E 2。

Stable diffusion 将 VQ-GAN应用于第一阶段的潜在表示。VQ-GAN 通过添加对抗目标来提高合成图像的自然度,从而改进了 VQ-VAE。使用预训练的 VAE,Stable diffusion逆转了前向扩散过程,该过程用噪声来扰乱潜在空间。Stable diffusion还引入交叉注意力作为各种条件信号(如文本)的通用条件。对潜在空间执行扩散建模明显优于像素空间,无分类器指导也显着改进了潜在空间中的文本到图像扩散模型。

DALL-E2具有多模态潜在空间,其中图像嵌入和文本编码在同一表示空间中匹配。它采用了 CLIP 文本编码器,使用从 CLIP 潜在空间生成图像的扩散模型来反转 CLIP 图像编码器。并训练一个先验来弥合 CLIP 文本和图像潜在空间之间的差距,称为文本-图像潜在先验。 DALL-E2发现这个先验可以通过自回归方法或扩散模型学习,但扩散先验具有更优的性能。

clip2latent建议训练一个弥合 CLIP 嵌入和预训练生成模型之间差距的扩散模型(例如,StyleGAN).具体来说,扩散模型被训练以从 CLIP 图像嵌入生成 StyleGAN 的潜在空间。在推理过程中,StyleGAN 的潜在是直接从文本嵌入生成的,就好像它们是图像嵌入一样,这使得无语言训练成为可能。

4.Improving text-to-image diffusion models

4.1 改进模型架构

  • 关于guidance的选择

    无分类器指导优于CLIP 指导,缺乏大规模的transformer语言模型使得这些具有 CLIP 指导的模型难以编码文本提示并生成具有细节的复杂场景。UPainting结合大型语言模型和跨模态匹配模型,显着提高了生成图像的样本保真度和图像-文本对齐水平。

  • 关于降噪器的选择

    早期采样阶段强烈依赖文本提示来实现与标题对齐的目标,但后期侧重于提高图像质量而几乎忽略了文本指导。因此需要放弃在去噪过程中共享模型参数的做法,并针对不同生成阶段采用特定的去噪器模型。ERNIE-ViLG 2.0通过文本解析器和对象检测器的指导减轻了对象属性问题,改进了细粒度语义控制。

4.2 空间布局控制

大多数文本到图像的 DM,如 Imagen和 DALL-E2不提供对空间布局的细粒度控制。SpaText引入了空间文本(ST)表示,可以将其包含在内以通过调整其解码器来微调SOTA DM。新的编码器同时调节本地 ST 和现有的全局文本。

SpaText 的核心在于 ST,其中分别训练扩散先验,将 CLIP 中的图像嵌入转换为其文本嵌入。在训练过程中,ST 是通过使用 CLIP 图像编码器将分割后的图像对象作为输入直接生成。

4.3 视觉艺术风格控制

为了合成具有特定概念或主题的新颖场景,引入几个具有所需概念的参考图像,然后将参考图像反转为文本描述。具体来说将几个参考图像中的共享概念反转到文本(嵌入)空间中,即“伪词”。生成的“伪词”可用于个性化生成。 DreamBooth采用了类似的技术,主要区别在于微调(而不是冻结)预训练的 DM 模型,以保留主体身份的关键视觉特征。

4.4 检索分布外泛化

为了减轻严重的OOD性能下降,多项工作利用了以外部数据库作为内存的检索技术,检索增强扩散模型(RDM)由条件DM和图像数据库组成,图像数据库被解释为模型的显式部分。使用CLIP测量的距离,在外部数据库中为每个查询(即训练样本)查询k最近邻。扩散先验由具有固定CLIP图像编码器的KNN邻居的更具信息性的嵌入来指导而不是文本嵌入。KNN扩散采用了一种基本相似的方法,主要不同之处在于使扩散先验以文本嵌入为条件,以提高生成的样本质量,Re-Imagen中也采用了这种做法。

与具有两阶段框架的 RDM 和 KNN-扩散相比,Re-Imagen采用单阶段框架并选择与潜在空间中的距离无关的 K-NN 邻居。此外,Re-Imagen 还允许检索到的邻居既是图像又是文本。

5.Evaluation

5.1 自动评估方法

定量评估图像质量的常用指标是 Frechet Inception Distance (FID),它测量合成图像和真实世界图像之间的 Frechet 距离(也称为 Wasserstein-2 距离 ), FID 越小,图像保真度越高。

测量文本图像对齐:CLIP 分数

图像质量:Inception score(IS)

文本到图像生成: R-precision

5.2 人工评估方法

评估保真度和文本图像对齐:DrawBench、PartiPropts和 UniBench要求人工评分者比较不同模型生成的图像。PaintSKills除了图像质量和文本图像对齐之外,还评估了视觉推理技能和社会偏见。EntityDrawBench进一步评估了不同场景中各种不常见实体的模型。与具有不同难度级别提示的 PartiPropts相比,Multi-Task Benchmark提出了评估不同能力的 32 个任务,并将每个任务分为三个难度级别。

6.Application beyond text-to-image generation

6.1 生成任务

(1)艺术绘画

数字绘画:Multimodal guided artwork diffusion(MGAD)多模态输入

显式内容和抽象美学:DiffStyler扩散过程中具有可学习噪声的可控双扩散模型

同一风格生成:Creative painting with latent diffusion models文本条件扩展和模型再训练

自定义风格:“Personalizing text-to-image generation via aesthetic gradients“

生成图像拓展为数字图标或艺术的可缩放矢量图形(SVG)

(2)视频生成和故事可视化

  • 文本到视频

    Make-A-Video将预训练的文本到图像 DM 应用到文本到视频,通过在预训练的文本到图像模型中包含时间信息来生成高质量视频,并训练空间超分辨率模型和帧插值模型以提高视觉质量,不需要成对的文本-视频数据。

    Video Imagen将现有的视频 DM 方法扩展到文本到视频,是由级联视频扩散模型组成的文本到视频系统。

  • 文本到故事生成(故事合成)

    Make-A-Story提出了一种自回归基于扩散的框架,具有视觉记忆模块,隐式捕获跨帧的演员和背景上下文。为了跨场景的一致性,Make-AStory 提出了一种基于句子条件的软注意力。

    AR-LDM基于stable diffusion,不仅受当前字幕的指导,而且还受先前为每个帧生成的图像图像字幕历史的指导,这允许 AR-LDM 跨帧生成相关且连贯的图像。

(3)3D生成
DeepFusion 是第一个成功地将扩散模型应用于 3D 对象合成的作品,通过预训练 2D 扩散模型(即 Imagen)的蒸馏训练随机初始化的 NeRF。Magic3D 提出了一种从粗到精的优化方法,第一步是将粗表示作为初始化,并使用高分辨率扩散先验优化网格表示,使用稀疏 3D 哈希网格结构加速生成过程。

3DDesigner关注 3D 对象生成的另一个主题,即一致性,它表示跨视图的对应关系。以基于NeRF的条件模块的低分辨率结果为先验,双流异步扩散模块进一步增强了一致性,并实现了360度结果一致。

6.2 优化任务

(1)一般图像编辑
DiffusionCLIP首先采用预训练的 DM 将输入图像转换为潜在空间,然后在反向路径上微调 DM,损失由两项组成:局部定向 CLIP 损失和identity损失。前者用于引导目标图像与文本对齐,后者减轻不需要的更改。DiffusionClip 的一个缺点是它需要对模式进行微调才能迁移到新的领域。

通用框架:LDEdit,是 DDIM 和 LDM 的结合,LDEdit在潜在空间中采用确定性前向扩散,然后以目标文本为条件进行反向处理。

为了解决文本提示的简单修改可能导致不同输出的问题,Prompt-to-Prompt提出在扩散过程中使用交叉注意图,它表示每个图像像素与文本中单词之间的关系。

Direct Inversion应用了类似的两步过程,即,将图像编码为其相应的噪声,然后生成具有反向噪声的编辑图像。在生成过程中,扩散模型从噪声向量开始,通过迭代去噪生成图像。

(2)使用掩码进行图像编辑
困难在于保证masked区域和背景之间的无缝连贯性。

Blended diffusion基于预训练的 CLIP 并采用两个损失项:一个用于鼓励蒙版图像和文本标题与另一个之间的对齐,以保持未蒙版区域不偏离其原始内容。需要一个手动设计的掩码,以便模型可以分辨要编辑的部分。

相比之下,DiffEdit建议自动生成掩码以指示要编辑的部分。掩码是根据查询文本和参考文本条件之间噪声估计的差异来推断的。通过推断掩码,DiffEdit将感兴趣区域替换为与查询文本对应的像素。

(3)使用单个图像进行模型训练
SinGAN 可以生成相似的图像,并在对单个图像进行训练后在多项任务(例如图像编辑)上表现良好。

单一去噪扩散模型(SinDDM)提出了一种分层扩散模型。卷积降噪器在各种尺度的图像上进行训练,这些图像被多级噪声破坏,可以生成不同尺寸的图像

单图像扩散模型(SinDiffusion)是在单个图像上以单一比例进行训练的,避免了误差累积。此外,SinDiffusion 提出了块级感受野,鼓励模型学习块统计信息,而不是在先前的扩散模型中记住整个图像。

UniTune 在单个图像上微调预训练的大型文本到图像扩散模型(例如 Imagen)。

(4)3D对象编辑
3DDesigner是第一个通过从单个视图编辑来执行 360 度操作的软件。对于给定的文本,3DDesigner首先通过 2D 局部编辑获得混合噪声,然后将混合噪声映射到独立于视图的文本嵌入空间,从而生成相应的文本嵌入。一旦获得相应的文本嵌入,就可以生成 360 度的结果。

DATID-3D 致力于另一个主题,即 3D 对象的文本引导域自适应,首先使用扩散模型获得多样化的姿态感知目标图像,然后通过改进的 CLIP 和滤波过程对获得的目标图像进行校正。
(5)其他任务
Imagic率先对单个图像执行基于文本的语义编辑。Imagic首先获得目标文本的优化嵌入,生成与输入相似的图像。接着使用具有重建损失的优化嵌入微调预训练扩散模型,并在目标文本嵌入和优化文本嵌入之间进行线性插值。然后将生成的表示输入微调模型并生成编辑后的图像。

Paint by example提出了一个语义图像合成问题,参考图像在混合到另一个图像之前进行语义转换和协调。MagicMix 提出了一项称为语义混合的新任务,它融合了两种不同的语义(例如,corgi 和咖啡机)以创建一个新概念(corgi-like 咖啡机),MagicMix建议在不同的时间步将两个概念与内容混合。

InstructPix2Pix 的任务是使用人工编写的人工指令编辑图像。基于大型模型(GPT-3)和文本到图像模型(stable diffusion),首先为这个新任务生成一个数据集,并训练一个条件扩散模型 InstructPix2Pix,它可以很好地泛化到真实图像。

7.挑战和展望

7.1 数据集偏差

目前的模型主要或完全采用英语作为输入文本的默认语言,不可避免会引入数据偏见,更多样化的数据集可以消除数据集偏差对模型的影响。

7.2 数据计算挑战

现有模型高度依赖标记数据,从头开始训练计算开销很大;模型尺寸也很大,阻碍了在效率导向型环境的部署。

7.3 效果评估

现有的自动评价指标有其局限性,需要更加更靠和多样化的自动评价标准。

7.4 统一的多模态框架

将多个任务统一到一个模型中,例如,UniD3和Versatile Diffusion用一个扩散模型统一了文本到图像的生成和图像字幕。统一的多模态模型可以通过更好地学习每个模态的表示来促进每个任务。

7.5 与其他领域合作

与其他领域合作,如包括自监督学习中的masked autoencoder和最近在自然语言处理领域的ChatGPT

  • 3
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
InteractDiffusion是一种基于对话控制的图像生成模型,其目的是通过对话控制图像的生成过程,来实现用户需求的精确控制。根据官方论文的描述,在这种模型中,生成器和对话控制模型相互作用,以生成更具语义一致性和可解释性的图像。 具体而言,InteractDiffusion模型将对话控制器嵌入到对抗式训练过程中,其目的是在条件生成图像的同时,同时生成与用户对话相对应的图像。这种方法可以用于生成带有特定属性的图像,例如特定的物体或场景。通过对话控制模型,用户可以控制生成器,以生成满足他们的需求的图像。 下面是这篇论文提出的InteractDiffusion模型的核心组件: - 明确对话建模:InteractDiffusion模型将对话控制器嵌入到生成图像的过程中,使得生成器可以通过对话控制器接受条件生成的输入和上下文,并生成与之相应的图像。这种对话建模的方法可以在不增加额外复杂度的情况下,提高模型生成图像时的语义一致性和可解释性。 - 双向条件生成:InteractDiffusion模型采用双向条件生成的方法,即通过对话控制器,生成器可以根据用户对输入和上下文的要求生成对应的图像,并且也可以根据生成的图像,生成相应的对话输出结果。这种方法使得模型在生成图像时能够有更好的灵活性和可控性。 - 对抗式训练:InteractDiffusion模型采用对抗式训练的方法,即结合生成器和判别器进行训练。在对抗式训练中,生成器的目标是生成逼真的图像,而判别器的目标是辨别生成器生成的图像和真实图像的区别。这种对抗式的学习方式可以使得生成器更加准确地生成逼真的图像,同时提高模型的鲁棒性和泛化能力。 请问你还有什么其他问题吗?

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值