【DALLE·2/unCLIP】基于CLIP的分层文本条件图像生成 Hierarchical Text-Conditional Image Generation with CLIP Latents

今天分享的是OpenAI发表的一篇论文《Hierarchical Text-Conditional Image Generation with CLIP Latents》

原文链接:https://cdn.openai.com/papers/dall-e-2.pdf

摘要

类似CLIP这样的对比模型已经被证明可以学习出稳健的图像表征,这些表征能够捕捉出图像中的语义和风格。为了利用这些表征来生成图像,作者提出了一个两阶段的模型:前一阶段prior根据给定的文本描述,生成类似于CLIP的图像特征。作者在prior阶段尝试了自回归模型和扩散模型,发现使用扩散模型计算效率高且生成样本质量高。后一阶段decoder根据图像特征生成图像,在decoder阶段使用的同样是扩散模型。该模型有两个亮点:① 生成的图像的逼真度和文本匹配度非常高;② 可以实时利用文本信息引导模型生成、编辑各种图像,且不需要训练(zero-shot)。

1.介绍

CLIP的优点:在图像分布产生变化的情况下表现稳健,具有很强的zero-shot能力,经过微调可以在各种视觉和语言任务中产生优异的表现。相关知识可参考以往推文:https://mp.weixin.qq.com/s/hosHZYm0aiQQsyqv9w5WVQ

扩散模型的优点:是一种非常有前途的生成建模框架,目前利用了一种引导技术,通过牺牲一部分多样性,达到更好的图像逼真度。相关知识可参考以往推文:https://mp.weixin.qq.com/s/RiJs_VgeKVl2VLPuKAzWTg

作者将这两种方法结合起来,用于文本条件下的图像生成问题。该文提出的模型叫DALL-E 2,也被作者称为unCLIP。CLIP根据给定文本和图像得到特征,之后利用特征进行图像匹配、图像检索等工作,是一个从输入到特征的过程;DALL-E 2是一个从文本特征到图像特征,最后到图像的过程,它将特征还原到数据,和CLIP是一个反过程,所以叫做unCLIP。

2.模型框架

在这里插入图片描述
在该图中,虚线的上半部分描述的是CLIP模型的过程,虚线的下半部分描述的是DALL-E 2模型的过程。

CLIP模型:在训练时,将文本以及对应的图像(“文本-图像”对)分别输入文本编码器和图像编码器,之后通过文本编码器得到文本特征,通过图像编码器得到图像特征,这两个特征是一个正样本,该文本特征与其他图像生成的图像特征是负样本,通过对比学习进行训练,将文本的特征和图像的特征联系在一起,得到训练效果较好的文本编码器+图像编码器。一旦CLIP模型训练结束,文本编码器和图像编码器就被锁定。在DALL-E 2的训练过程中,CLIP处于锁定状态,不会进行任何训练和微调。

DALL-E 2模型:在训练时,首先将文本和对应的图像分别输入已被锁定的CLIP的文本编码器和图像编码器,在得到文本特征后,将其输入prior中生成图像特征,值得注意的是,在这个过程中,由CLIP图像编码器生成的图像特征充当了ground truth的角色对prior的训练进行监督,达到更好地对prior模型训练的目的;在推理时,其过程就是将文本输入CLIP文本编码器生成文本特征,文本特征通过prior模型生成图像特征,图像特征通过扩散模型生成最后的图像。

2.1 Decoder

作者使用带有CFG(classifier-free guidance,无分类指导)的扩散模型来产生图像,在GLIDE模型的基础上进行改进。通过随机选择10%的时间令CLIP的特征为0,训练时选择50%的时间随机丢弃文本说明来实现无分类指导。在生成图像时采用层级式生成的方法,由64×64逐步生成得到1024×1024的高清大图,为了训练的稳定性,在训练时加了很多噪声。

2.2 Prior

在prior阶段,作者探索了两种不同的模型,分别是自回归模型和扩散模型,两种模型都加入了CFG。针对使用扩散模型的prior阶段,作者训练了一个Transformer的decoder,因为此时的输入输出是embedding,不适合使用U-Net模型,所以选择了使用Transformer来处理。

3.应用

3.1 图像生成

给定一个图像,可以生成很多和它类似的图像,所生成的图像风格和原始图像一致,图像中所出现的物体也大体一致,但在其他方面有所不同,例如形状和方向。
在这里插入图片描述

3.2 图像之间做内插

给定两张图像,在两张图像的图像特征之间做内插,当插出来的特征更偏向于某个图像时,所生成的图像就更多地具有该图像的特征。
在这里插入图片描述

3.3 文本之间做内插

与其他图像表征模型相比,使用CLIP的一个关键优势是,它将图像和文本嵌入到相同的潜在空间,从而能够通过语言引导对图像进行操作,形成不同的图像。
在这里插入图片描述

4.实验

在这里插入图片描述
基于MS-COCO数据集,使用unCLIP模型和其他baseline在FID分数上的比较。对自回归模型prior阶段和扩散模型prior阶段的解码器都使用相同的指导尺度1.25,通过实验对比发现使用扩散模型的prior取得了最好的结果。

5.不足

① 生成图像混淆物体和属性。
在这里插入图片描述
该图的前两个例子里,模型混淆了两个物体的颜色。最右边的例子中,该模型无法可靠地重建两个物体的相对大小。

② 生成的图像中出现文字错误。
在这里插入图片描述
该图显示的是由“A sign that says deep learning.”文本生成的图像。

③ 生成带有复杂场景的图像时,细节处的生成质量低。
在这里插入图片描述

6.总结

该文主要介绍了DALL-E 2模型,它是OpenAI在2022年4月推出的一款模型,之前OpenAI在2021年推出了GLIDE模型。DALL-E 2可以根据文本描述生成原创性的、真实的图像,模型学习到文本和图像的特征之后,可以对其概念、属性、风格进行组合;除了根据文本生成图像,DALL-E 2还能根据文本对已有的图像进行编辑和修改,添加或者移除图像里的物体,修改时甚至可以考虑阴影、光线和物体纹理等;DALL-E 2可以在没有文本输入的情况下,做一些图像生成的工作,比如给定一张图像,根据已有的图像和它的风格,生成类似风格的图像。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值