DALL·E 2 :OpenAI第二代文本生成图片模型(unCLIP--基于CLIP的文本生成图像模型)

8 篇文章 1 订阅
7 篇文章 1 订阅

1 简介

本文根据2022年《Hierarchical Text-Conditional Image Generation with CLIP Latents》翻译总结的。如题,基于CLIP进行图片生成。CLIP可以参考https://blog.csdn.net/zephyr_wang/article/details/126915466

这个也是DALL·E 2 ,即OpenAI第二代文本生成图片模型。
第一代DALL·E,详见https://blog.csdn.net/zephyr_wang/article/details/130021457

我们的模型根据文本生成的图片效果如下,具有很强的图片现实主义。
在这里插入图片描述

我们叫我们的模型为unCLIP,其是一个两阶段模型:前半部分Prior是给定文本生成一个image embedding(这个Prior产生的image embedding就是把CLIP的image embedding当作真值训练所得的。),后半部分decoder是以image embedding为条件生成图片。

模型架构如下:虚线上面部分是CLIP。虚线之下是我们文本到图像生成过程,一个CLIP text embedding输入到autoregressive或者扩散模型(prior部分)来生成一个image embedding,然后这个embedding输入到扩散模型decoder,生成最终的图像。CLIP部分在我们模型训练时是冻住的。
在这里插入图片描述

2 方法

在这里插入图片描述

2.1 Prior

Prior,我们探索了两种模型,Autoregressive (AR) 、Diffusion。发现Diffusion更好些。

3 实验结果

FID比较图片相似的评分,越低越好。可以看到unCLIP在zero-shot中表现最好,同时Diffusion好过AR。
在这里插入图片描述

4 模型限制

1)在分割两个颜色的两个物体上有些困难,如下图左边。
在这里插入图片描述

2)容易混淆属性和物体,如下图
在这里插入图片描述

3)在连贯的文本(coherent text)上有困难,如下图
在这里插入图片描述

4)在复杂的场景下处理细节有困难。

在这里插入图片描述

5)生成的图片容易混淆原作,区分不出来。

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值