论文链接:High-Resolution Image Synthesis with Latent Diffusion Models
文章目录
摘要
通过将图像形成过程分解为去噪自动编码器的顺序应用,扩散模型(DMs)实现了对图像数据和其他数据的最先进的合成结果。此外,它们的表述允许一种引导机制来控制图像生成过程,而无需重新培训。然而,由于这些模型通常直接在像素空间中操作,所以优化功能强大的DMs通常需要花费数百天的GPU天,并且由于顺序评估,推理成本很高。为了在有限的计算资源上实现DM训练,同时保持其质量和灵活性,本文将它们应用于强大的预训练自动编码器的隐空间。与以前的工作不同,在这样的表示上训练扩散模型首次允许在降低复杂性和保持细节之间达到接近最优的点,从而极大地提高了视觉保真度。通过在模型体系结构中引入交叉注意层,将扩散模型转化为强大而灵活的生成器,用于文本或边界框等一般条件输入,并以卷积方式进行高分辨率合成。本文的隐空间扩散模型(LDMs)在图像修复和类别条件图像合成方面获得了最新的SOTA分数,在各种任务(包括文本到图像合成、无条件图像生成和超分辨率)上的性能具有很强的竞争力,同时与基于像素的DMs相比,显著减少了计算需求。
引言
图像合成是计算机视觉领域近年来发展最迅猛的领域之一,也是计算需求最大的领域之一。特别是复杂的自然场景的高分辨率合成目前主要由扩大的基于似然的模型控制,在自回归(AR)变压器中可能包含数十亿个参数。相比之下,GANs的良好结果大多局限于变异性相对有限的数据,因为它们的对抗学习过程不容易扩展到建模复杂的多模态分布。最近,由去噪自编码器层次构建的扩散模型在图像合成及其他方面取得了令人印象深刻的结果,并在类条件图像合成和超分辨率方面定义了最先进的技术。此外,与其他类型的生成模型相比,即使是无条件的DMs也可以很容易地应用于诸如inpainting和colorization或基于笔画的合成等任务。作为基于似然的模型,它们不像GANs那样表现出模式崩溃和训练不稳定性,而且通过大量利用参数共享,它们可以模拟高度复杂的自然图像分布,而不像AR模型那样涉及数十亿个参数。
普及高分辨率图像合成
DMs属于基于似然的模型,其模式覆盖行为使它们易于在建模数据的难以察觉的细节上花费过多的容量(以及计算资源)。尽管重加权变分目标旨在通过对初始去噪步骤采样不足来解决这一问题,DMs仍然需要大量的计算,因为训练和评估这样的模型需要在RGB图像的高维空间中重复函数评估(和梯度计算)。例如,训练最强大的DMs通常需要数百个GPU天,并且在输入空间的噪声版本上重复评估也非常昂贵,因此在单个A100 GPU上生成50k个样本大约需要5天。这对研究界和一般用户有两个影响:首先,训练这样的模型需要大量的计算资源,而这些资源只在该领域的一小部分可用,并且会留下巨大的碳足迹。其次,评估一个已经训练好的模型在时间和内存上也很昂贵,因为相同的模型架构必须连续运行大量的步骤。
为了提高这个功能强大的模型类的可访问性,同时减少其显著的资源消耗,需要一种降低训练和采样计算复杂度的方法。因此,在不影响数据管理系统性能的前提下,减少数据管理系统的计算需求是提高其可访问性的关键。
向潜空间出发
本文的方法从分析像素空间中已经训练好的扩散模型开始:图2显示了训练模型的速率失真权衡。与任何基于似然的模型一样,学习大致可以分为两个阶段:第一个阶段是压缩感知阶段,它去除高频细节,但仍然学习不到语义变化。在第二阶段,实际生成模型学习数据的语义和概念组成(语义压缩)。因此,目标是首先找到一个感知上等价的,但在计算上更合适的空间,在那里将训练扩散模型用于高分辨率图像合成。
按照惯例,本文将训练分为两个不同的阶段:首先,训练一个自动编码器,它提供一个在感知上与数据空间等价的低维(因此是有效的)表示空间。重要的是,与之前的工作相比,本文不需要依赖过度的空间压缩,因为在学习的隐空间中训练DMs,这在空间维数方面表现出更好的缩放特性。降低的复杂性也提供了有效的图像生成从隐空间与单一网络通道。本文把得到的模型称为潜伏扩散模型(LDMs)。
这种方法的一个显著优点是,只需要训练一次通用自动编码阶段,然后将它用于多个DM训练或探索可能完全不同的任务。这使得对各种图像到图像和文本到图像任务的大量扩散模型的有效探索成为可能。对于后者,本文设计了一种架构,将Transformers连接到DM的UNet主干,并实现任何类型的基于tokens的条件反射机制。
总之,本文工作做出了以下贡献:
- 与纯粹基于Transformers的方法相比,本文方法更优雅地扩展到高维数据,因此 :(a) 在压缩级别上工作,它提供比以前的工作更忠实和更详细的重建(见图 1); (b) 可以有效地应用于百万像素图像的高分辨率合成
- 在多个任务(无条件图像合成、修复、随机超分辨率)和数据集上实现了具有竞争力的性能,同时显著降低了计算成本。与基于像素的扩散方法相比,还显著降低了推断成本
- 本文表明,与之前同时学习编码器/解码器架构和基于分数的先验的工作相比,本文方法不需要对重构和生成能力进行微妙的加权。这确保了极其忠实的重构,并且对隐空间的正则化要求非常少
- 发现,对于密集条件任务,如超分辨率、修复和语义合成,本文模型可以以卷积的方式应用,并渲染大的、一致的图像,约 102 4 2 1024^2 10242像素
- 此外,设计了一种基于交叉注意的通用条件反射机制,实现了多模态训练。使用它来训练类条件模型、文本到图像模型和Layout-to-image模型
- 最后,在https://github.com/CompVis/latent-diffusion上发布了预训练的隐空间扩散和自动编码模型,除了DMs的训练之外,它还可以用于各种任务
相关工作
图像合成的生成模型
图像的高维特性对生成建模提出了独特的挑战。生成对抗网络(GAN)允许对具有良好感知质量的高分辨率图像进行有效采样,但难以优化,并且难以捕获完整的数据分布。相比之下,基于似然的方法强调良好的密度估计,使优化更加良好。变分自编码器(VAE)基于流的模型能够高效地合成高分辨率图像,但样本质量不如GANs。虽然自回归模型(ARM)在密度估计方面实现了强大的性能,但计算量大的架构和顺序采样过程将其限制在低分辨率图像上。由于基于像素的图像表示包含几乎无法察觉的高频细节,最大似然训练在建模上花费了不成比例的容量,导致训练时间很长。为了扩展到更高的分辨率,一些两阶段的方法使用ARMs来建模压缩的隐图像空间,而不是原始像素。
最近,扩散概率模型(DM)在密度估计和样本质量方面取得了最先进的结果。当这些模型的基础神经骨干被实现为UNet时,它们的生成能力源于对类图像数据的归纳偏差的自然适应。当一个重加权的目标用于训练时,通常可以获得最佳的综合质量。在这种情况下,DM对应于有损压缩器,并允许以图像质量换取压缩能力。然而,在像素空间中评估和优化这些模型的缺点是推理速度低和训练成本非常高。虽然前者可以通过高级采样策略和分层方法部分解决,但在高分辨率图像数据上的训练总是需要计算昂贵的梯度。本文用提出的LDMs解决了这两个缺点,它们工作在一个较低维度的压缩隐空间上。这使得训练计算成本更低,并加快了推理速度,几乎没有降低合成质量(见图1)。
两阶段法图像合成
为了缓解直接生成方法的缺点,大量研究通过两阶段方法将不同方法的优点结合成更高效和性能更好的模型。VQ-VAEs使用自回归模型学习离散化潜空间上的表达先验。Zero-Shot Text-to-Image Generation通过学习离散化图像和文本表示的联合分布,将这种方法扩展到文本到图像的生成。更一般地,Network-to-Network Translation with Conditional Invertible Neural Networks使用有条件可逆网络来提供不同域的隐空间之间的一般性转移。与VQ-VAEs不同,VQGANs采用第一阶段,具有对抗和感知目标,将自回归Transformers缩放到更大的图像。然而,可行的ARM训练所需的高压缩率,引入了数十亿个可训练参数,限制了这种方法的整体性能,低压缩是以高计算成本为代价的。本文工作防止了这样的权衡,因为提出的LDMs由于其卷积主干,可以更温和地扩展到更高维度的隐空间。因此,在学习强大的第一阶段之间,可以自由选择最优的压缩水平,不留下太多的感知压缩到生成扩散模型,同时保证高保真重建(见图1)。
虽然联合或单独的方法学习带有基于分数的先验的编码/解码模型,但前者仍然需要在重建和生成能力之间进行艰难的加权,本文的方法优于前者,而后者专注于高度结构化的图像,如人脸。
方法
为了降低训练扩散模型对高分辨率图像合成的计算需求,观察到,尽管扩散模型允许通过对相应损失项进行过采样而忽略感知上不相关的细节,但它们仍然需要在像素空间中进行代价高昂的函数评估,这将导致计算时间和能量资源的巨大需求。建议通过将压缩与生成学习阶段明确分离来规避这一缺陷(见图2)。为了实现这一目标,本文使用了一种自编码模型,该模型学习的空间在感知上与图像空间相当,但显著降低了计算复杂度。
这种方法提供了几个优点:(i)通过离开高维图像空间,使得DMs在计算上更有效,因为采样是在低维空间上执行的;(ii)利用了继承自其UNet架构的DMs的归纳偏差,这使得它们对于具有空间结构的数据特别有效,因此减轻了以前方法所要求的积极的、降低质量的压缩级别的需求;(iii)最后,得到了通用压缩模型,其隐空间可用于训练多个生成模型,也可用于其他下游应用,如单图像的CLIP引导合成。
感知图像压缩
本文的感知压缩模型基于之前的工作,由一个自动编码器组成,该自动编码器由感知损失和基于patch的对抗目标的组合训练。这确保了重建通过强制局部真实感并避免仅仅依赖像素空间损失(例如 L2 或 L1 目标)引入的模糊性,从而仅限于图像流形。
更精确地说,在RGB空间中给定一个图像 x ∈ R H × W × 3 x ∈ R^{H×W ×3} x∈RH×W×3,编码器 E E E将 x x x编码为一个隐的表示 z = E ( x ) z = E(x) z=E(x),解码器 D D D从隐空间的图像中重建图像,得到 x ~ = D ( z ) = D ( E ( x ) ) \tilde{x} = D(z) = D(E(x)) x~=D(z)=D(E(x)),其中 z ∈ R h × w × c z∈R^{h×w×c} z∈Rh×w×c。重要的是,编码器以 f = H / h = W / w f = H/h = W/w f=H/h=W/w的因子对图像进行下采样,研究了不同的下采样因子 f = 2 m , m ∈ N f = 2^m,m∈N f=2m,m∈N。
为了避免任意高方差的隐空间,本文尝试了两种不同的正则化。第一个变体KL-reg.,对学习潜伏期的标准法线施加轻微的KL-penalty,类似于VAE;而VQ-reg.在解码器中使用矢量量化层。这个模型可以解释为一个VQGAN,但量化层被解码器吸收。因为本文后续DMs设计用于处理学习到的隐空间 z = E ( x ) z = E(x) z=E(x)的二维结构,所以可以使用相对温和的压缩率并实现非常好的重构。这与之前的工作形成对比,以前的工作依赖于学习空间 z z z的任意1D顺序来自回归建模其分布,从而忽略了 z z z的大部分固有结构。因此,本文的压缩模型更好地保留了 x x x的详细信息(见表8)。完整的目标和训练细节可以在附录中找到。
隐空间扩散模型
扩散模型
扩散模型是通过逐步去噪正态分布变量来学习数据分布
p
(
x
)
p(x)
p(x)的概率模型,这对应于学习长度为
T
T
T的固定马尔可夫链的反向过程。对于图像合成,最成功的模型依赖于
p
(
x
)
p(x)
p(x)上变分下界的重加权变体,它反映了去噪分数匹配。这些模型可以解释为去噪自编码器
θ
(
x
t
,
t
)
θ(x_t,t)
θ(xt,t)的等加权序列。
T
=
1
…
…
T
T = 1……T
T=1……T;它们被训练来预测其输入的去噪变体,其中
x
t
x_t
xt是输入
x
x
x的噪声版本。相应的目标可以简化为:
L
D
M
=
E
x
,
ϵ
∼
N
(
0
,
1
)
,
t
[
∣
∣
ϵ
−
ϵ
θ
(
x
t
,
t
)
∣
∣
2
2
]
,
(1)
L_{DM}=E_{x,\epsilon \sim N(0,1),t}[||\epsilon-\epsilon_{\theta}(x_t,t)||^2_2],\tag{1}
LDM=Ex,ϵ∼N(0,1),t[∣∣ϵ−ϵθ(xt,t)∣∣22],(1)
其中
t
t
t从
{
1
,
⋅
⋅
⋅
,
T
}
\lbrace1,\cdot\cdot\cdot,T\rbrace
{1,⋅⋅⋅,T}中均匀采样。
隐空间表征的生成模型
通过训练过的由 E E E和 D D D组成的感知压缩模型,现在可以获得一个有效的、低维的隐空间,其中高频的、难以察觉的细节被抽象出来。与高维像素空间相比,该空间更适合基于似然的生成模型,因为它们现在可以(i)专注于数据的重要语义位,(ii)在更低维、计算效率更高的空间训练。
与以前的工作不同的是,在高度压缩、离散的隐空间中,依赖自回归的、基于注意力的Transformers模型,可以利用本文模型提供的特定于图像的归纳偏差。这包括主要从2D卷积层构建底层UNet的能力,并使用重加权界限进一步将目标集中在感知上最相关的位上, 目标更新为:
L
L
D
M
:
=
E
E
(
x
)
,
ϵ
∼
N
(
0
,
1
)
,
t
[
∣
∣
ϵ
−
ϵ
θ
(
z
t
,
t
)
∣
∣
2
2
]
,
(2)
L_{LDM}:=E_{E(x),\epsilon \sim N(0,1),t}[||\epsilon-\epsilon_{\theta}(z_t,t)||^2_2],\tag{2}
LLDM:=EE(x),ϵ∼N(0,1),t[∣∣ϵ−ϵθ(zt,t)∣∣22],(2)
本文模型中的神经主干 ϵ θ ( ⋅ , t ) \epsilon_θ(\cdot,t) ϵθ(⋅,t)被实现为一个时间条件UNet。由于前向过程是固定的,所以在训练过程中可以有效地从 E E E中获取 z t z_t zt,而 p ( z ) p(z) p(z)中的样本只需经过一次 D D D就可以解码到图像空间中。
条件机制
与其他类型的生成模型相似,扩散模型原则上能够建模形式为 p ( z ∣ y ) p(z|y) p(z∣y)的条件分布。这可以通过条件去噪自动编码器 ϵ θ ( z t , t , y ) \epsilon_θ(z_t,t,y) ϵθ(zt,t,y)实现,并为通过输入 y y y(如文本、语义映射或其他图像到图像的翻译任务)控制合成过程铺平了道路。然而,在图像合成的背景下,将DMs的生成能力与类条件标签或输入图像的模糊变体之外的其他类型条件结合在一起是一个尚未探索的研究领域。
本文通过使用交叉注意机制(cross-attention mechanism)来增强DMs的底层UNet主干,从而使其成为更灵活的条件图像生成器,该机制对于学习各种输入模式的基于注意的模型非常有效。为了从各种模态(如语言提示)对
y
y
y进行预处理,引入了一个领域特定的编码器
τ
θ
τ_θ
τθ,它将
y
y
y投影到一个中间表示
τ
θ
(
y
)
∈
R
M
×
d
τ
τ_θ(y)∈R^{M ×d_τ}
τθ(y)∈RM×dτ,然后通过一个交叉注意层映射到UNet的中间层,实现注意
(
Q
,
K
,
V
)
=
s
o
f
t
m
a
x
(
Q
K
T
d
)
⋅
V
(Q, K, V) = softmax(\frac{QK^T}{\sqrt{d}})·V
(Q,K,V)=softmax(dQKT)⋅V,其中
Q
=
W
Q
(
i
)
⋅
φ
i
(
z
t
)
,
K
=
W
K
(
i
)
⋅
τ
θ
(
y
)
,
V
=
W
V
(
i
)
⋅
τ
θ
(
y
)
.
Q=W^{(i)}_Q\cdot\varphi_i(z_t),\,K=W^{(i)}_K\cdot\tau_{\theta}(y),\,V=W^{(i)}_V\cdot\tau_{\theta}(y).
Q=WQ(i)⋅φi(zt),K=WK(i)⋅τθ(y),V=WV(i)⋅τθ(y).
其中,
φ
i
(
z
t
)
∈
R
N
×
d
ϵ
i
\varphi_i(z_t) \in R^{N \times d^i_{\epsilon}}
φi(zt)∈RN×dϵi表示实现
ϵ
θ
\epsilon_{\theta}
ϵθ和
W
V
(
i
)
∈
R
d
×
d
ϵ
i
,
W
Q
(
i
)
∈
R
d
×
d
τ
,
W
K
(
i
)
∈
R
d
×
d
τ
W^{(i)}_V \in R^{d \times d^i_{\epsilon}},\,W^{(i)}_Q \in R^{d \times d_{\tau}},\,W^{(i)}_K \in R^{d \times d_{\tau}}
WV(i)∈Rd×dϵi,WQ(i)∈Rd×dτ,WK(i)∈Rd×dτ是可学习的投影矩阵的UNET的(扁平的)中间表示。具体架构见图3。
基于图像-条件对,通过以下公式学习有条件的LDM
L
L
D
M
:
=
E
E
(
x
)
,
y
,
ϵ
∼
N
(
0
,
1
)
,
t
[
∣
∣
ϵ
−
ϵ
θ
(
z
t
,
t
,
τ
θ
(
y
)
)
∣
∣
2
2
]
,
(3)
L_{LDM}:=E_{E(x),y,\epsilon \sim N(0,1),t}[||\epsilon-\epsilon_{\theta}(z_t,t,\tau_{\theta}(y))||^2_2],\tag{3}
LLDM:=EE(x),y,ϵ∼N(0,1),t[∣∣ϵ−ϵθ(zt,t,τθ(y))∣∣22],(3)
其中
τ
θ
,
ϵ
θ
\tau_{\theta},\epsilon_{\theta}
τθ,ϵθ通过公式3联合优化。这种条件作用机制是灵活的,因为
τ
θ
τ_θ
τθ可以通过特定领域的专家进行参数化,例如,当
y
y
y是文本提示时
τ
θ
τ_θ
τθ可以是(未掩码的)Transformers。
实验
LDMs为各种图像形态的基于扩散的图像合成提供了灵活的、计算上易于处理的方法,下文展示了这一点。然而,首先,分析了模型在训练和推理方面与基于像素的扩散模型相比的增益。有趣的是,发现在VQ正则化的隐空间中训练的LDMs有时会获得更好的样本质量,即使VQ正则的第一阶段模型的重建能力稍微落后于它们的连续模型,见表8。第一阶段正则化方案对LDMs训练的效果及其对分辨率 > 25 6 2 > 256^2 >2562图片的泛化能力的可视化比较可以在附录D.1中找到。附录E.2列出了本节中所有结果的架构、实现、训练和评估的详细信息。
感知压缩权衡
本节分析了具有不同下采样因子 f ∈ 1 , 2 , 4 , 8 , 16 , 32 f∈{1,2,4,8,16,32} f∈1,2,4,8,16,32(缩写为LDM-f,其中LDM-1对应于基于像素的DM)的LDM的行为。为了获得可比的测试场,将本节中所有实验的计算资源固定为单个NVIDIA A100,并使用相同数量的步骤和相同数量的参数训练所有模型。表8显示了用于本节比较的LDM的第一阶段模型的超参数和重建性能。图6显示了ImageNet数据集上2M步类别条件模型的样本质量与训练进度的函数关系。发现,i)LDM-{1,2}的小降采样因子导致训练进度缓慢,而ii)过大的 f f f值在相对较少的训练步骤后导致保真度停滞。回顾上述分析(图1和2),将其归因于i)将大部分感知压缩留给扩散模型,以及ii)第一阶段压缩过强,导致信息丢失,从而限制了可实现的质量。LDM-{4-16}在效率和感知上可靠的结果之间取得了良好的平衡,这表现为在2M个训练步骤之后,基于像素的扩散(LDM-1)和LDM-8之间的显著FID差距为38。
在图7中,使用DDIM采样器比较了在CelebAHQ和ImageNet上训练的模型,并将其与FID分数进行比较。LDM-{4-8}在感知和概念压缩比率不合适的情况下优于模型。特别是与基于像素的LDM-1相比,它们实现了更低的FID分数,同时显著提高了样本吞吐量。像ImageNet这样的复杂数据集需要降低压缩率以避免降低质量。总之,LDM-4和LDM-8为获得高质量的合成结果提供了最佳条件。
基于隐空间扩散的图像生成
在CelebA-HQ, FFHQ, LSUN-Churches和LSUN-Bedroom上训练
25
6
2
256^2
2562分辨率图像的无条件模型,评估i)样品质量;ii)数据流形的覆盖范围,使用FID精度和召回。表1总结了结果。在CelebA-HQ上,报告了一个新的最先进的FID,5.11,优于以前的基于似然的模型和GANs;也优于LSGM,其中隐空间扩散模型与第一阶段一起训练。相比之下,在固定的空间中训练扩散模型,避免了在隐空间上学习先验来权衡重建质量的困难,如图1-2所示。
表1 无条件图像合成的评估指标;
†
:
\dag:
†:N-s是指使用DDIM采样器采样N步;
∗
:
^*:
∗:在KL正则化隐空间中进行训练;其他结果可在附录找到
除了LSUN-Bedroom数据集,本文模型在所有基于扩散的方法上都优于先前的方法,得分接近ADM,尽管使用了一半的参数,所需的训练资源少了4倍(见附录E.3.5)。此外,LDMs在精度和召回率方面持续优于基于GAN的方法,从而证实了基于模式覆盖似然的训练目标相对于对抗方法的优势。在图4中,还展示了每个数据集上的定性结果。
图4 样本来自使用CelebAHQ, FFHQ, LSUN-Churches, LSUN-Bedroom和类别条件ImageNet训练的LDMs,分辨率为256x256
图5 用户定义的文本提示样本来自本文文本到图像合成模型LDM-8 (KL),该模型是在LAION数据库上训练;以200个DDIM步骤生成样品,
η
=
1.0
η = 1.0
η=1.0;使用无条件引导,
s
=
10.0
s = 10.0
s=10.0
图6 分析了ImageNet数据集上2M以上训练步具有不同下采样因子的类条件LDMs的训练。与具有较大下采样因子(LDM-{4-16})的模型相比,基于像素的LDM-1需要更大的训练时间。LDM-32中过多的感知压缩限制了整体样本质量。所有模型都在一台NVIDIA A100上训练,计算预算相同。100个DDIM步骤,且κ = 0
图7 在CelebA-HQ(左)和ImageNet(右)数据集上比较不同压缩的LDMs。不同的标记表示使用DDIM的{10,20,50,100,200}采样步骤,沿着每条线从右向左。虚线显示了200步的FID分数,表明LDM-{4-8}的强大性能。对5000个样本进行FID评分。在A100上对所有模型进行500k (CelebA) / 2M (ImageNet)步长训练
条件隐空间扩散
用于LDMs的Transformer编码器
通过在LDMs中引入基于交叉注意的条件反射,为它们打开了以前未被用于扩散模型的各种条件反射模式。对于文本到图像的图像建模,本文训练了一个1.45B参数KL正则化的LDM,条件为LAION-400M的语言提示。使用bert分词器并实现
τ
θ
τ_θ
τθ作为Transformer来推断一个隐空间编码,该编码通过(多头)交叉注意映射到UNet。这种可学习语言表示和视觉合成的领域特定专家的结合产生了一个强大的模型,它很好地概括了复杂的、用户定义的文本提示,如图8和图5所示。对于定量分析,遵循先前的工作,并在MS-COCO验证集上评估文本到图像的生成,其中本文的模型大幅度优于AR和基于GAN的方法,如表2所示。注意到,应用classifier-free扩散制导大大提高了样本质量,例如,引导的LDM-KL-8-G能与最新的最先进的AR和扩散模型在文本到图像合成中性能相当,同时大大减少了参数数量。为了进一步分析基于交叉注意的条件反射机制的灵活性,还训练模型在OpenImages上基于语义Layout合成图像,在COCO上基于finetune合成图像,见图8。量化评估和实施细节见附录D.3。
最后,根据之前的工作,使用表3、图4和附录D.4中的 f ∈ 4 , 8 f∈{4,8} f∈4,8评估了性能最佳的类别条件ImageNet模型;超越了最先进的扩散模型ADM,同时显著降低了计算需求和参数计数。
超过 25 6 2 256^2 2562的卷积采样
通过将空间对齐的条件信息连接到
θ
θ
θ的输入,LDMs可以作为高效的通用图像到图像转换模型。本文使用它来训练语义合成、超分辨率和修补的模型。对于语义合成,使用与semantic maps配对的景观图像,并将semantic maps的下采样版本与
f
=
4
f = 4
f=4模型(VQ-reg,见表8)的隐空间图像表征连接起来。在
25
6
2
256^2
2562(从
38
4
2
384^2
3842中裁剪)的输入分辨率上进行训练,但发现本文们的模型可以泛化到更大的分辨率,并且当以卷积方式评估时,可以生成高达百万像素的图像(见图9)。利用这种行为也应用超分辨率模型和修补模型来生成
51
2
2
512^2
5122到
102
4
2
1024^2
10242之间的大图像。对于这种应用,信噪比(由隐空间的规模引起)显著影响结果。在附录D.1节中,在学习(i)由
f
=
4
f = 4
f=4模型(KL-reg)提供的潜空间的LDM时说明了这一点,见表8)和(ii)缩放版本,按组件的标准偏差进行缩放。后者结合classifier-free引导,也可以为图13所示的文本条件LDM-KL-8-G直接合成
>
25
6
2
> 256^2
>2562图像。
基于隐空间扩散的超分辨率
通过拼接在低分辨率图像上直接进行条件调整,可以有效地训练LDMs实现超分辨率。在第一个实验中,遵循SR3,并使用4×-downsampling将图像退化固定为双三次插值,并按照SR3的数据处理管道在ImageNet上进行训练。使用在OpenImages (VQ-reg)上预训练的f = 4自动编码模型,并将低分辨率条件y与UNet的输入连接起来,即
τ
θ
τ_θ
τθ为恒等式。实验的定性和定量结果(见图10和表5)表现出具有竞争力的性能,LDM-SR在FID中优于SR3,而SR3具有更好的IS。一个简单的图像回归模型获得了最高的PSNR和SSIM得分;然而,这些指标并不能很好地与人类的感知保持一致,而且比起不完全一致的高频细节,它们更倾向于模糊。此外,进行了一项用户研究,将像素基线与LDM-SR进行比较。遵循SR3,向人类受试者展示了两张高分辨率图像之间的一张低分辨率图像,并询问他们的偏好。表4的结果证实了LDM-SR的良好性能。PSNR和SSIM可以通过使用post-hoc引导机制来推动,通过感知损失来实现这个基于图像的引导,参见附录D.6。
由于双三次退化过程不能很好地推广到不遵循此预处理的图像,本文还通过使用更多样化的退化来训练一个通用模型LDM-BSR。结果见附录D.6.1。
基于隐空间扩散的修复
“修复”是用新内容填充图像的遮蔽区域的任务,要么是因为图像的部分已经损坏,要么是为了替换图像中现有的但不需要的内容。本文评估了用于条件图像生成的一般方法与用于此任务的更专门的、最先进的方法的比较情况。评估遵循LaMa协议,这是一种最近的修补模型,它引入了一种依赖于快速傅里叶卷积的专用架构,详情见附录E.2.2。
首先分析了第一阶段不同设计选择的效果。特别地,比较了LDM-1(即基于像素的条件DM)与LDM-4的嵌入效率,对于KL和VQ正则化,以及VQLDM-4在第一阶段没有任何关注的情况下(见表8),后者在高分辨率解码时减少了GPU内存。为了可比性,固定了所有模型的参数数量。表6报告了分辨率
25
6
2
256^2
2562和
51
2
2
512^2
5122下的训练和采样吞吐量,每个epoch的总训练时间(以小时为单位),以及六个epoch后验证分割上的FID得分。总的来说,观察到基于像素和隐空间的扩散模型之间的速度至少提高了2.7倍,同时FID得分提高了至少1.6倍。
通过与表7中其他修复方法的比较,本文的模型在注意条件下比Resolution-robust Large Mask Inpainting with Fourier Convolutions提高了FID测量的整体图像质量;未掩模图像与样本之间的LPIPS也略高。将此归因于Resolution-robust Large Mask Inpainting with Fourier Convolutions只产生单一结果,与本文的LDM产生的不同结果相比,该结果倾向于恢复更多的平均图像。此外,在一项用户研究(表4)中,人类受试者更倾向于本文结果。
基于这些初始结果,本文也在没有注意的VQ正则化第一阶段的潜空间中训练了一个更大的扩散模型(在表7中较大)。在Diffusion Models Beat GANs on Image Synthesis之后,该扩散模型的UNet在其特征层次结构的三个层次上使用了注意层,即BigGAN残差块进行上下采样,参数由215M变为387M。训练后,注意到在
25
6
2
256^2
2562和
51
2
2
512^2
5122分辨率下产生的样品质量存在差异,怀疑这是由额外的注意模块引起的。然而,在
51
2
2
512^2
5122分辨率下对模型进行半个epoch的微调,可以使模型适应新的特征统计数据,并在图像修复上设置新的FID状态(见表7、图11)。
局限性和社会影响
局限性
虽然与基于像素的方法相比,LDMs显著减少了计算需求,但其顺序采样过程仍比GANs慢。此外,当需要高精度时,LDMs的使用可能是值得怀疑的:尽管在本文的 f = 4 f = 4 f=4自动编码模型中,图像质量的损失非常小(见图1),但它们的重建能力可能成为像素空间中需要细粒度精度的任务的瓶颈。假设本文的超分辨率模型在这方面已经有一定的局限性。
社会影响
图像等媒体的生成模型是一把双刃剑:一方面,它们使各种创造性应用成为可能,特别是像本文这样降低训练和推理成本的方法,有可能促进这种技术的使用,并使其探索民主化。另一方面,这也意味着创建和传播被操纵的数据或传播虚假信息和垃圾邮件变得更加容易。特别是,故意操纵图像(“deep fakes”)是这一背景下的一个常见问题,女性尤其受其影响较大。
生成式模型还可以显示其训练数据,当数据包含敏感或个人信息,且未经明确同意收集时,这一点非常值得关注。然而,这在多大程度上也适用于图像的DMs还没有完全理解。最后,深度学习模块倾向于重现或加剧数据中已经存在的偏见。虽然扩散模型比基于GAN的方法更好地覆盖了数据分布,但结合了对抗性训练和基于似然的目标的两阶段方法在多大程度上歪曲了数据仍然是一个重要的研究问题。
结论
本文提出了隐空间扩散模型,这是一种简单有效的方法,可以显著提高去噪扩散模型的训练效率和采样效率,而不降低其质量。基于这一点和本文的交叉注意调节机制,实验可以在没有任务特定架构的广泛条件图像合成任务中显示出较先进的方法更好的结果。