目录
- 概述
- 发展
-
- (1)Generating images from captions with attention(使用注意力机制的从文本生成图像)
- (2)Generative Adversarial Text to Image Synthesis(生成对抗式从文本生成图像)
- (3)Learning what and where to draw(学习画什么和画在哪)
- (4)Plug & play generative networks: Conditional iterative generation of images in latent space(即插即用的生成网络:潜在空间中图像的条件迭代生成)
- (5)StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks(StackGAN:使用堆叠的生成对抗式网络从文本生成照片般类似的图像)
- (6)StackGAN++: Realistic Image Synthesis with Stacked Generative Adversarial Networks(StackGAN ++:具有堆叠式生成对抗网络的逼真的图像合成)
- (7)AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks(AttnGAN:带有注意的生成对抗网络细化文本到图像生成)
- (8)MirrorGAN: Learning Text-to-image Generation by Redescription(MirrorGAN:通过重新定义学习文本到图像的生成)
- (9)DM-GAN: Dynamic Memory Generative Adversarial Networks for Text-to-Image Synthesis(DM-GAN:用于文本到图像合成的动态记忆生成对抗网络)
- 参考
概述
背景
图像生成是人工智能中一个重要的研究领域,现在的图像生成效果已经能够达到以假乱真的地步,但是不能按照要求正确的生成图像。所以研究者们将目光转向了从文本生成图像(Text2Image),它可以从描述图像的文本中生成目标图像。
目地
定义:根据给定的文本条件(Text)准确的生成一张精度足够高的图像(Image)。
因为传统的图像生成只是简单的通过学习模拟真实图像的分布,再经过优化处理从而生成和真实图像相似的图像,相当于一个判别任务(生成图像能够和真实图像分到一类中即可),而基于描述生成逼真图像却要困难得多,需要更多的训练。在机器学习中,这是一项生成任务,比判别任务难多了,因为生成模型必须基于更小的种子输入产出更丰富的信息(如具有某些细节和变化的完整图像)。
分类
近年来图像生成邻域不断发展,出现了许多优秀的模型和方法,目前来说,使用最多的模型应当是GAN。它的效果也是最好的,从方法的层面上来分,可以分为以下两类:
Single-stage:学习自然语言和真实图像的关系,并且训练之后能够生成一张类似真实图像的高质量图像,一次生成图像即完成任务,这样的话速度较快,网络结构相对简单一些。
Multi-stage:最初是StackGAN和StackGAN++,通过首先生成低质量的初始图像,再结合注意力机制,多次精炼生成图像,达到将其细化为高分辨率图像的目的。这样的话网络的结构可能比较庞大,需要的计算力较高,训练速度较慢,但是效果较好。
发展
在图像生成的发展过程中,涌现过许许多多的新奇思路和精妙构想,在此主要以GAN模型为例,列举一些经典的论文进行分析。
(1)Generating images from captions with attention(使用注意力机制的从文本生成图像)
论文作者: Elman Mansimov, Emilio Parisotto, Jimmy Lei Ba & Ruslan Salakhutdinov
会议: ICLR. 2016.
论文地址: https://arxiv.org/pdf/1511.02793.pdf
代码地址: https://github.com/mansimov/text2image
论文简介: 文章的核心在于提出了一个align-DRAW,引入了一个深度重复注意力写入模块来扩展VAE。利用GAN在最后一步来优化图片。总的来说
该模型生成的图像不够真实,物体比较模糊,生成的图像是低分辨率36x36的,因为VAE是直接计算生成图片和原始图片的均方误差,而不是像GAN那样对抗学习。
(2)Generative Adversarial Text to Image Synthesis(生成对抗式从文本生成图像)
论文作者: Reed, Scott, Akata, Zeynep, Yan, Xinchen, Logeswaran, Lajanugen, Schiele, Bernt, and Lee, Honglak.
会议: ICML 2016
论文地址: https://arxiv.org/pdf/1605.05396.pdf
代码地址: