text to image 从文本生成图像(以GAN为主)

概述

背景

图像生成是人工智能中一个重要的研究领域,现在的图像生成效果已经能够达到以假乱真的地步,但是不能按照要求正确的生成图像。所以研究者们将目光转向了从文本生成图像(Text2Image),它可以从描述图像的文本中生成目标图像。

目地

定义:根据给定的文本条件(Text)准确的生成一张精度足够高的图像(Image)。

因为传统的图像生成只是简单的通过学习模拟真实图像的分布,再经过优化处理从而生成和真实图像相似的图像,相当于一个判别任务(生成图像能够和真实图像分到一类中即可),而基于描述生成逼真图像却要困难得多,需要更多的训练。在机器学习中,这是一项生成任务,比判别任务难多了,因为生成模型必须基于更小的种子输入产出更丰富的信息(如具有某些细节和变化的完整图像)。

分类

近年来图像生成邻域不断发展,出现了许多优秀的模型和方法,目前来说,使用最多的模型应当是GAN。它的效果也是最好的,从方法的层面上来分,可以分为以下两类:
Single-stage:学习自然语言和真实图像的关系,并且训练之后能够生成一张类似真实图像的高质量图像,一次生成图像即完成任务,这样的话速度较快,网络结构相对简单一些。
Multi-stage:最初是StackGAN和StackGAN++,通过首先生成低质量的初始图像,再结合注意力机制,多次精炼生成图像,达到将其细化为高分辨率图像的目的。这样的话网络的结构可能比较庞大,需要的计算力较高,训练速度较慢,但是效果较好。

发展

在图像生成的发展过程中,涌现过许许多多的新奇思路和精妙构想,在此主要以GAN模型为例,列举一些经典的论文进行分析。

(1)Generating images from captions with attention(使用注意力机制的从文本生成图像)

论文作者: Elman Mansimov, Emilio Parisotto, Jimmy Lei Ba & Ruslan Salakhutdinov
会议: ICLR. 2016.
论文地址: https://arxiv.org/pdf/1511.02793.pdf
代码地址: https://github.com/mansimov/text2image
论文简介: 文章的核心在于提出了一个align-DRAW,引入了一个深度重复注意力写入模块来扩展VAE。利用GAN在最后一步来优化图片。总的来说
该模型生成的图像不够真实,物体比较模糊,生成的图像是低分辨率36x36的,因为VAE是直接计算生成图片和原始图片的均方误差,而不是像GAN那样对抗学习。

(2)Generative Adversarial Text to Image Synthesis(生成对抗式从文本生成图像)

论文作者: Reed, Scott, Akata, Zeynep, Yan, Xinchen, Logeswaran, Lajanugen, Schiele, Bernt, and Lee, Honglak.
会议: ICML 2016
论文地址: https://arxiv.org/pdf/1605.05396.pdf
代码地址:

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值