text to image 从文本生成图像（以GAN为主）

最新推荐文章于 2024-11-19 13:48:28 发布

白白白白白丶

最新推荐文章于 2024-11-19 13:48:28 发布

阅读量8.3k

点赞数 9

文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/yimeixiaobai_/article/details/105925434

版权

概述

背景

图像生成是人工智能中一个重要的研究领域，现在的图像生成效果已经能够达到以假乱真的地步，但是不能按照要求正确的生成图像。所以研究者们将目光转向了从文本生成图像(Text2Image)，它可以从描述图像的文本中生成目标图像。

目地

定义：根据给定的文本条件(Text)准确的生成一张精度足够高的图像(Image)。

因为传统的图像生成只是简单的通过学习模拟真实图像的分布，再经过优化处理从而生成和真实图像相似的图像，相当于一个判别任务(生成图像能够和真实图像分到一类中即可)，而基于描述生成逼真图像却要困难得多，需要更多的训练。在机器学习中，这是一项生成任务，比判别任务难多了，因为生成模型必须基于更小的种子输入产出更丰富的信息（如具有某些细节和变化的完整图像）。

分类

近年来图像生成邻域不断发展，出现了许多优秀的模型和方法，目前来说，使用最多的模型应当是GAN。它的效果也是最好的，从方法的层面上来分，可以分为以下两类：
Single-stage：学习自然语言和真实图像的关系，并且训练之后能够生成一张类似真实图像的高质量图像，一次生成图像即完成任务，这样的话速度较快，网络结构相对简单一些。
Multi-stage：最初是StackGAN和StackGAN++，通过首先生成低质量的初始图像，再结合注意力机制，多次精炼生成图像，达到将其细化为高分辨率图像的目的。这样的话网络的结构可能比较庞大，需要的计算力较高，训练速度较慢，但是效果较好。

发展

在图像生成的发展过程中，涌现过许许多多的新奇思路和精妙构想，在此主要以GAN模型为例，列举一些经典的论文进行分析。

(1)Generating images from captions with attention(使用注意力机制的从文本生成图像)

论文作者： Elman Mansimov, Emilio Parisotto, Jimmy Lei Ba & Ruslan Salakhutdinov
会议： ICLR. 2016.
论文地址： https://arxiv.org/pdf/1511.02793.pdf
代码地址： https://github.com/mansimov/text2image
论文简介： 文章的核心在于提出了一个align-DRAW，引入了一个深度重复注意力写入模块来扩展VAE。利用GAN在最后一步来优化图片。总的来说
该模型生成的图像不够真实，物体比较模糊，生成的图像是低分辨率36x36的，因为VAE是直接计算生成图片和原始图片的均方误差，而不是像GAN那样对抗学习。

(2)Generative Adversarial Text to Image Synthesis(生成对抗式从文本生成图像)

论文作者： Reed, Scott, Akata, Zeynep, Yan, Xinchen, Logeswaran, Lajanugen, Schiele, Bernt, and Lee, Honglak.
会议： ICML 2016
论文地址： https://arxiv.org/pdf/1605.05396.pdf
代码地址：