Hierarchical Text-Conditional Image Generation with CLIP Latents
目录
四、Probing the CLIP Latent Space
5.3 Improved Diversity-Fidelity Trade-off with Guidance
5.5 Aesthetic Quality Comparison
总结
类似CLIP的对比模型已经被证明可以学习图像语义和风格稳健的图像表征。为了利用这些表示来生成图像,作者提出了一个两阶段模型:
- prior:
给定文本标题生成CLIP图像embedding。
2. decoder:以图像embedding为条件生成图像。
作者表明,明确地生成图像表征提高了图像的多样性,在逼真度和标题的相似度方面损失最小。作者以图像表征为条件的解码器也能产生图像的变化,保留其语义和风格,同时改变图像表征中不存在的非必要细节。此外,CLIP的联合嵌入空间使语言指导下的图像操作能够以zreo-shot的方式进行。作者对解码器使用扩散模型,并对先验的自回归和扩散模型进行实验,发现后者在计算上更有效率,并产生更高质量的样本。
一、Introduction
CLIP embeddings有一些理想的特性:它们对图像分布的偏移是稳健的,有惊人的zero-shot能力,并已被微调以在各种视觉和语言任务上取得最先进的结果。同时,扩散模型作为一个有前途的生成性建模框架出现,推动了图像和视频生成任务的最先进水平。扩散模型利用一种guidance技术,以样本的多样性为代价提高了样本的保真度(对于图像来说,就是逼真度)。
作者将这两种方法(CLIP、diffusion)结合起来,用于文本条件下的图像生成问题。
作者首先训练一个扩散解码器来反转CLIP图像编码器。由于反转器并不是固定的,可以产生对应于给定图像embedding的多个图像。编码器和解码器的存在允许文本到图像的翻译能力。正如在GAN中,对输入图像进行编码和解码会产生语义上相似的输出图像(图3)。还可以通过对输入图像的图像embeddings进行反转插值来实现输入图像之间的插值(图4)。
DALL-E 2 的亮点如下:
- DALL-E 2 展示了深度学习中扩散模型(Diffusion)的强大功能,因为 DALL-E 2 中的先验和图像生成子模型都是基于扩散的。虽然在过去几年才开始流行,但扩散模型已经证明了自身价值,一些关注深度学习研究的人也期望在未来看到更多进展。
- 展示了使用自然语言作为训练深度学习 SOTA 模型的手段的必要性和力量。这一点并非源于 DALL-E 2,但重要的是认识到, DALL-E 2 的力量是源于可在互联网上获得大规模匹配的自然语言 / 图像数据。使用这些数据消除了手动标注数据集的高成本和相关瓶颈,但这类数据嘈杂、未经处理的性质也反映了深度学习模型必须具备面对真实数据的鲁棒性。
- DALL-E 2 重申了 Transformer 的地位,鉴于它们具有令人印象深刻的并行性,因此对于在网络规模数据集上训练的模型来说是至高无上的。
二、Methods
模型主要架构如图2所示(作者将DALL-E 2在文章中称为unCLIP),上部是一个CLIP,输入为文本图像对,文本信息和图像信息分别经过文本编码器和图像编码器提取文本特征C和图像特征C,文本特征C和图像特征C也是成对存在。下方作为DALL-E 2主体部分,主要由prior和decoder两阶段。首先,文本信息经过文本编码器提取文本特征D,然后prior根据文本信息D生成图像特征D。训练过程中,图像特征C作为图像特征D的ground truth进行训练,也就是说训练时DALLE2生成的图像特征D时不时的看一下CLIP生成的对应文本的图像特征C。最后通过一个解码器decoder根据图像