DALL·E 2 :OpenAI第二代文本生成图片模型（unCLIP--基于CLIP的文本生成图像模型)

AI强仔

已于 2023-04-09 17:04:20 修改

阅读量4.7k

点赞数 4

分类专栏： GAN 人工智能多模态文章标签：生成对抗网络

于 2022-09-22 23:01:56 首次发布

人工智能同时被 3 个专栏收录

150 篇文章

订阅专栏

8 篇文章

订阅专栏

7 篇文章

订阅专栏

1 简介

本文根据2022年《Hierarchical Text-Conditional Image Generation with CLIP Latents》翻译总结的。如题，基于CLIP进行图片生成。CLIP可以参考https://blog.csdn.net/zephyr_wang/article/details/126915466。

这个也是DALL·E 2 ，即OpenAI第二代文本生成图片模型。
第一代DALL·E，详见https://blog.csdn.net/zephyr_wang/article/details/130021457

我们的模型根据文本生成的图片效果如下，具有很强的图片现实主义。
在这里插入图片描述

我们叫我们的模型为unCLIP，其是一个两阶段模型：前半部分Prior是给定文本生成一个image embedding（这个Prior产生的image embedding就是把CLIP的image embedding当作真值训练所得的。），后半部分decoder是以image embedding为条件生成图片。

模型架构如下：虚线上面部分是CLIP。虚线之下是我们文本到图像生成过程，一个CLIP text embedding输入到autoregressive或者扩散模型（prior部分）来生成一个image embedding，然后这个embedding输入到扩散模型decoder，生成最终的图像。CLIP部分在我们模型训练时是冻住的。
在这里插入图片描述

2 方法

在这里插入图片描述

2.1 Prior

Prior，我们探索了两种模型，Autoregressive (AR) 、Diffusion。发现Diffusion更好些。

3 实验结果

FID比较图片相似的评分，越低越好。可以看到unCLIP在zero-shot中表现最好，同时Diffusion好过AR。
在这里插入图片描述

4 模型限制

1）在分割两个颜色的两个物体上有些困难，如下图左边。
在这里插入图片描述

2）容易混淆属性和物体，如下图
在这里插入图片描述

3）在连贯的文本（coherent text）上有困难，如下图
在这里插入图片描述

4）在复杂的场景下处理细节有困难。

在这里插入图片描述

5）生成的图片容易混淆原作，区分不出来。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。