【DALLE·2/unCLIP】基于CLIP的分层文本条件图像生成 Hierarchical Text-Conditional Image Generation with CLIP Latents

momosnowsnow

已于 2023-03-27 17:43:52 修改

阅读量683

点赞数

文章标签：计算机视觉人工智能深度学习

于 2023-03-23 21:13:18 首次发布

本文链接：https://blog.csdn.net/weixin_45378275/article/details/129732266

版权

今天分享的是OpenAI发表的一篇论文《Hierarchical Text-Conditional Image Generation with CLIP Latents》

原文链接：https://cdn.openai.com/papers/dall-e-2.pdf

摘要

类似CLIP这样的对比模型已经被证明可以学习出稳健的图像表征，这些表征能够捕捉出图像中的语义和风格。为了利用这些表征来生成图像，作者提出了一个两阶段的模型：前一阶段prior根据给定的文本描述，生成类似于CLIP的图像特征。作者在prior阶段尝试了自回归模型和扩散模型，发现使用扩散模型计算效率高且生成样本质量高。后一阶段decoder根据图像特征生成图像，在decoder阶段使用的同样是扩散模型。该模型有两个亮点：① 生成的图像的逼真度和文本匹配度非常高；② 可以实时利用文本信息引导模型生成、编辑各种图像，且不需要训练（zero-shot）。

1.介绍

CLIP的优点：在图像分布产生变化的情况下表现稳健，具有很强的zero-shot能力，经过微调可以在各种视觉和语言任务中产生优异的表现。相关知识可参考以往推文：https://mp.weixin.qq.com/s/hosHZYm0aiQQsyqv9w5WVQ

扩散模型的优点：是一种非常有前途的生成建模框架，目前利用了一种引导技术，通过牺牲一部分多样性，达到更好的图像逼真度。相关知识可参考以往推文：https://mp.weixin.qq.com/s/RiJs_VgeKVl2VLPuKAzWTg

作者将这两种方法结合起来，用于文本条件下的图像生成问题。该文提出的模型叫DALL-E 2，也被作者称为unCLIP。CLIP根据给定文本和图像得到特征，之后利用特征进行图像匹配、图像检索等工作，是一个从输入到特征的过程；DALL-E 2是一个从文本特征到图像特征，最后到图像的过程，它将特征还原到数据，和CLIP是一个反过程，所以叫做unCLIP。

2.模型框架

在这里插入图片描述
在该图中，虚线的上半部分描述的是CLIP模型的过程，虚线的下半部分描述的是DALL-E 2模型的过程。

CLIP模型：在训练时，将文本以及对应的图像（“文本-图像”对）分别输入文本编码器和图像编码器，之后通过文本编码器得到文本特征，通过图像编码器得到图像特征，这两个特征是一个正样本，该文本特征与其他图像生成的图像特征是负样本，通过对比学习进行训练，将文本的特征和图像的特征联系在一起，得到训练效果较好的文本编码器+图像编码器。一旦CLIP模型训练结束，文本编码器和图像编码器就被锁定。在DALL-E 2的训练过程中，CLIP处于锁定状态，不会进行任何训练和微调。

DALL-E 2模型：在训练时，首先将文本和对应的图像分别输入已被锁定的CLIP的文本编码器和图像编码器，在得到文本特征后，将其输入prior中生成图像特征，值得注意的是，在这个过程中，由CLIP图像编码器生成的图像特征充当了ground truth的角色对prior的训练进行监督，达到更好地对prior模型训练的目的；在推理时，其过程就是将文本输入CLIP文本编码器生成文本特征，文本特征通过prior模型生成图像特征，图像特征通过扩散模型生成最后的图像。

2.1 Decoder

作者使用带有CFG（classifier-free guidance，无分类指导）的扩散模型来产生图像，在GLIDE模型的基础上进行改进。通过随机选择10%的时间令CLIP的特征为0，训练时选择50%的时间随机丢弃文本说明来实现无分类指导。在生成图像时采用层级式生成的方法，由64×64逐步生成得到1024×1024的高清大图，为了训练的稳定性，在训练时加了很多噪声。

2.2 Prior

在prior阶段，作者探索了两种不同的模型，分别是自回归模型和扩散模型，两种模型都加入了CFG。针对使用扩散模型的prior阶段，作者训练了一个Transformer的decoder，因为此时的输入输出是embedding，不适合使用U-Net模型，所以选择了使用Transformer来处理。

3.应用

3.1 图像生成

给定一个图像，可以生成很多和它类似的图像，所生成的图像风格和原始图像一致，图像中所出现的物体也大体一致，但在其他方面有所不同，例如形状和方向。
在这里插入图片描述

3.2 图像之间做内插

给定两张图像，在两张图像的图像特征之间做内插，当插出来的特征更偏向于某个图像时，所生成的图像就更多地具有该图像的特征。
在这里插入图片描述

3.3 文本之间做内插

与其他图像表征模型相比，使用CLIP的一个关键优势是，它将图像和文本嵌入到相同的潜在空间，从而能够通过语言引导对图像进行操作，形成不同的图像。
在这里插入图片描述

4.实验

在这里插入图片描述
基于MS-COCO数据集，使用unCLIP模型和其他baseline在FID分数上的比较。对自回归模型prior阶段和扩散模型prior阶段的解码器都使用相同的指导尺度1.25，通过实验对比发现使用扩散模型的prior取得了最好的结果。

5.不足

① 生成图像混淆物体和属性。
在这里插入图片描述
该图的前两个例子里，模型混淆了两个物体的颜色。最右边的例子中，该模型无法可靠地重建两个物体的相对大小。

② 生成的图像中出现文字错误。
在这里插入图片描述
该图显示的是由“A sign that says deep learning.”文本生成的图像。

③ 生成带有复杂场景的图像时，细节处的生成质量低。
在这里插入图片描述

6.总结

该文主要介绍了DALL-E 2模型，它是OpenAI在2022年4月推出的一款模型，之前OpenAI在2021年推出了GLIDE模型。DALL-E 2可以根据文本描述生成原创性的、真实的图像，模型学习到文本和图像的特征之后，可以对其概念、属性、风格进行组合；除了根据文本生成图像，DALL-E 2还能根据文本对已有的图像进行编辑和修改，添加或者移除图像里的物体，修改时甚至可以考虑阴影、光线和物体纹理等；DALL-E 2可以在没有文本输入的情况下，做一些图像生成的工作，比如给定一张图像，根据已有的图像和它的风格，生成类似风格的图像。

momosnowsnow

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【DALLE·2/unCLIP】基于CLIP的分层文本条件图像生成 Hierarchical Text-Conditional Image Generation with CLIP Latents

作者提出了一个两阶段的模型：前一阶段prior根据给定的文本描述，生成类似于CLIP的图像特征。作者在prior阶段尝试了自回归模型和扩散模型，发现使用扩散模型计算效率高且生成样本质量高。后一阶段decoder根据图像特征生成图像，在decoder阶段使用的同样是扩散模型。
复制链接

扫一扫