[论文笔记]MirrorGAN: Learning Text-to-image Generation by Redescription

最新推荐文章于 2023-07-27 20:59:19 发布

CZYH_X

最新推荐文章于 2023-07-27 20:59:19 发布

阅读量1.2k

点赞数 1

分类专栏：论文笔记【GAN】

本文链接：https://blog.csdn.net/weixin_44363205/article/details/104717190

版权

1、文献综述

文章链接：链接
文章题目：《MirrorGAN: Learning Text-to-image Generation by Redescription》
代码尚未公布

2、文献导读

首先看看摘要部分：摘要的大体内容：
文章中提出一种新的模型MirrorGAN模型，该模型实现 text-to-image 生成。模型包块三个模块：STEM、GLAM和STREAM。STEM是语义文本嵌入模块：生成单词和句子级别的嵌入；GLAM用于级联图像生成的全局局部协作注意力模块：可以从粗略到精细的尺度生成目标图像，同时利用局部单词注意和全局句子注意来逐步增强所生成图像的多样性和语义一致性；STREAM语义文本再生和对齐模块：试图从生成的图像中重新生成文本描述，该图像在语义上与给定的文本描述保持一致。

3、文献详细介绍

本文主要贡献有三点，如下所示：

• We propose a novel unified framework called MirrorGAN for modeling T2I and I2T together, specifically targeting T2I generation by embodying the idea of learning T2I generation by redescription. (提出了一个称为MirrorGAN的新型统一框架，用于一起对T2I和I2T进行建模，通过体现通过重新描述学习T2I生成的思想来专门针对T2I生成。)
• We propose a global-local collaborative attention model that is seamlessly embedded in the cascaded generators to preserve cross-domain semantic consistency and to smoothen the generative process. (提出了一个全局局部协作注意力模型，该模型无缝嵌入到级联生成器中，以保持跨域语义一致性并平滑生成过程。)
• Except commonly used GAN losses, we additionally propose a CE-based text-semantics reconstruction loss to supervise the generator to generate visually realistic and semantically consistent images. Consequently, we achieve new state-of-the-art performance on two benchmark datasets.(除了常用的GAN损失外，还提出了基于CE的文本语义重构损失，以监督生成器以生成视觉上逼真的和语义上一致的图像。)

文章中提出的MirrorGAN的整体架构
在这里插入图片描述
从上图可以看出，该结构由三部分组成，接下来分别介绍这三部分。

STEM: Semantic Text Embedding Module

该模块是基于循环神经网络（RNN），其中包括单词嵌入w和句子嵌入s。
$w, s = R N N (T)$
其中 $T=\lbrace{T_l|l=0,...,L-1}\rbrace$ L表示句子长度。 $w=\lbrace{w^l|l=0,...,L-1}\rbrace\in R^{D×L}$ 是每个单词的隐藏状态 $w^l$ 的级联， $s\in R^{D}$ 是最后一个隐藏状态。
由于不同的描述文本可能具有相似的语义，那么生成的图像就同样应是相似的。因此，为了提高模型的鲁棒性，还使用了StackGAN中提出的conditioning augmentation method，从而产生更多的图像-文本对数据，增强对条件文本流形上的小扰动的鲁棒性。
特别地，这里仍然用到了条件增强模块：
$s_{ca}=F_{ca}(s)$

GLAM: Global-Local collaborative Attentive Module in Cascaded Image Generators

GLAM是由三个依次堆叠的图像生成网络组成，文章是采用AttnGAN中的基本结构，因为它具有良好生成逼真的图像的性能。我们用 $\lbrace{F_0,F_1,...,F_{m-1}}\rbrace$ 表示视觉变压器，用 $\lbrace{G_0,G_1,...,G_{m-1}}\rbrace$ 表示图像生成器。每个阶段的visual feature $f_i$ 和generated image $I_i$ 可以表示为：
$f_0=F_0(z,s_{ca}),$
$f_i=F_i(f_{i-1},F_{att_i}(f_{i-1},w,s_{}ca)),\,\,\,\,\,\,\,\,i\in\lbrace{1,2,...,m-1}\rbrace,$

最低0.47元/天解锁文章

CZYH_X

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
3
评论
[论文笔记]MirrorGAN: Learning Text-to-image Generation by Redescription

1、文献综述文章链接：链接文章题目：《MirrorGAN: Learning Text-to-image Generation by Redescription》代码尚未公布2、文献导读
复制链接

扫一扫