论文阅读-Adversarial Text-to-Image Synthesis: A Review

安徒生在ACL讲一千零一夜

已于 2023-07-29 18:25:50 修改

阅读量386

点赞数

分类专栏： # 文献阅读文章标签：论文阅读 gan text2img

于 2023-07-26 17:03:46 首次发布

本文链接：https://blog.csdn.net/weixin_63595187/article/details/131943348

版权

文献阅读专栏收录该内容

9 篇文章

订阅专栏

原文地址

一、摘要和结论

摘要

随着生成式对抗网络的出现，从文本描述中合成图像成为近年来研究的热点。这是一种灵活且直观的条件图像生成方法，在过去几年里，在视觉真实感、多样性和语义对齐方面取得了重大进展。然而该领域仍然面临一些挑战，需要进一步研究努力，比如使多目标生成高分辨率图像，以及开发与人类判断相关的，合适可靠的评估指标。这篇综述中，介绍了文本-图像对抗性合成模型的现状，自五年前开始的发展进行了概述，并提出了基于监督水平的分类方法。（创新点）

本文以策略来评估文本-图像合成模型，突出缺点，并针对缺点确定新的研究领域。从开发更好的数据集和评估指标到结构设计和模型训练的可能性改进算法。

结论

本文综述了最新的Text2Image（以下简称T2I）合成方法和常用数据集，检查了当前的评估技术，并讨论了开放的挑战。本文将现有的T2I方法分为两类，一类是直接T2I方法（仅使用单一文本描述作为输入），另一类是其他方法（可以使用额外信息，如多个标题、对话、布局、语义掩码、场景图或鼠标轨迹）。近年来单个标题合成图像已经取得很大的进展，但是生成图片中包含多个可能相互作用物体的复杂场景图像仍然十分困难。

最好的图像质量是由模型实现的。这些模型利用了形式语义蒙版中的附加信息，并将生成过程分解为分别生成前景对象和背景，然后将两者混合在一起。

未来发展方向

本文还回顾了最常用的评估图像质量和图像文本对齐的技术。随着IS、FID、R-prec以及SOA等自动评估指标的引入，评估T2I模型变得更加容易。然而，这些只是来代理（模拟）人类的判断，我们仍然需要用户研究来验证这些判断是否可信，特别是在评估图像-文本对齐和像数字、位置信息等这些微妙的方面。

进行用户研究挑战又有其自身的挑战。目前我们缺少一个标准化设置，我们建议提供关于设置的详细信息以及需要向用户提供的具体说明。最后对跨多个维度的开放性挑战进行了深入讨论。

在模型架构方面，希望看到更多关于文本embedding的重要性和质量的分析，T2I其他生成模型的应用，以及更好的场景理解的方法。

关于数据集，我们认为可视化的标题和密集的交叉模态关联可能是学习更好的表示（比如组合性概念）的关键。T2I的实际应用的关键在于图像生成过程中的细粒度控制。

因此，除了综合以外，未来的工作应专注于迭代和交互操作以及再生。

尽管已经取得了重大进展，但在生成更符合输入文本语义的更高分辨率图像、找到更好的自动指标、标准化用户研究、以及能够更多地控制构建用户友好界面等方面，仍有很大的改进潜力。

二、相关方法以及优缺点

2.1 直接T2I方法

仅使用单一文本描述（caption）作为输入，进行T2I生成

2.1.1 cGANs

GAN-INT-CLA

三个不同的对被用作discriminator的输入：具有匹配文本的真实图像、具有对应文本的生成图像和具有不匹配文本的真实图像。这种方法通常被称为匹配感知discriminator，相应的目标在我们的图中表示为LMatch。这种方法迫使generator和discriminator不仅关注逼真的图像，而且还要将它们与输入文本对齐。

![[Pasted image 20230726003200.png]]

GAN-INT-CLS将generator和discriminator置于预先训练过的charCNN-RNN文本编码器提供的文本嵌入中，并使用匹配的感知对损失Lmatch。TAC-GAN在训练期间使用一个附加的辅助分类任务和损失LC。

TAC-GAN

采用了一种附加的辅助分类损失，其灵感来自AC-GAN，它使用了一个热编码的类标签。

2.1.2 堆叠结构

使用多个堆叠的Generator

StackGAN

第一阶段生成一个粗糙的64×64像素图像，给出一个随机噪声向量和文本条件向量。然后将该初始图像和文本嵌入输入到输出256 × 256像素图像的第二generator。在这两个阶段，一个discriminator被训练来区分匹配和非匹配的图像-文本对。

StackGAN++

相比StackGAN使用end-to-end结构，使用三个Generator和Discriminator联合训练，同时近似多尺度、条件和无条件的图像分布。

![[Pasted image 20230726003635.png]]

StackGAN和StackGAN++架构。StackGAN需要两阶段的培训管道，而StackGAN++可以端到端培训。在训练过程中，中间视觉特征作为输入传递到下一个generator阶段，而额外的卷积的层生成图像。CA:文本嵌入ˆc从高斯分布中采样，以提供一个平滑的调节流形。

调节流形

Conditioning manifold（调节流形）是指在机器学习和深度学习中，用于描述数据分布的概念。它是指数据样本在输入空间中的一个低维嵌入流形，该流形可以用来表示数据集的结构和特征。
在实际应用中，数据分布通常不是随机分布的，而是存在一定的结构和相关性。这种结构可以通过调节流形的概念来描述，即将数据样本投影到一个较低维度的流形上，以捕捉数据的内在变化模式、关联性和特征。
调节流形有助于解决高维数据分析和处理中的问题，可以减少冗余和噪声信息，并提取出更具有判别性和可解释性的特征。它还可以用于降维和数据可视化，使得高维数据更易于理解和分析。

FusedGAN

两个Generator，分别进行条件和无条件图像合成。部分共享一个共同潜空间，允许一个Generator同时进行条件和无条件图像合成。

HDGAN

对抗沿着Generator的深度进行，不同分辨率级别有不同的Discriminator。除匹配感知对的损失外，还训练discriminatory区分真实图像和生成图像块，通过generator隐藏层中的正则化器实现，中间层输出可以利用更高分辨率的discriminator的信号，可以在不同尺度之间产生更一致的输出

PPAN

一个Generator和三个不同的Discriminator组成。结构采用金字塔框架，通过带有横向连接的自下而上的路径将低分辨率语义强的全局特征和高分辨率语义弱的局部特征结合起来。
采用基于预训练的VGG中提取特征的感知损失和辅助分类损失。

HfGAN

采用分层融合的架构，只有1个Discriminator。从不同阶段提取全局特征，并自适应融合在一起，融合方法采用identity addition，weight addition，shortcut connection（ResNet）。这样使得空间粗糙的低分辨率特征图，并包含控制生成图像结构的整体语义，可以指导精细细节的生成。

2.1.3 Attention结构

AttenGAN

基于StackGAN++之上，将attention整合到一个多级优化管道中，除了全局句向量外，attention还允许网络根据相关词汇合成细粒度细节。
Attention机制实现：
生成过程中，鼓励网络通过注意多模态相似度模型DAMSM损失将重点放在图像的每个子区域最相关的单词上。这个模型使用句子和单词级别的信息计算生成图像和输入文本之间的相似度。

![[Pasted image 20230726005316.png]]

简化AttnGAN架构。局部图像和单词特征之间的注意模块和相似性损失 $L_{DAMSM}$ 帮助generator基于相关单词合成细粒度细节。

grid-based attention

在object-grid区域和单词短语之间增加一种机制，object-grid区域由辅助边界框界定。除句子特征和单词特征外，还利用词部词性标注方法提取短语特征.

注意力竞争模块

只关注关键字，而不是attenGAN中为每个词定义注意力权重。通过引入注意力正则化项实现，只保留视觉上重要的单词的注意力权重。

ControlGAN

实现T2I生成和操作像类别纹理和颜色等的视觉属性，通过改变文字描述而不影响其他内容比如背景和姿势
字级空间和通道的注意力驱动生成器，允许生成器合成与最相关的词对应的图像区域。空间注意力集中颜色信息上，通道注意力将语义有意义的部分与相应的词进行关联。字级Discriminator为generator提供细粒度训练信号，利用字和图像子区域之间的相关性来分解不同视觉属性

2.1.4 Siamese结构

首先被提出用于解决签名和验证问题上。通常由两个分支组成，共享模型参数运行在一对输入上。每个分支都对不同的输入进行操作，目标是实现一种映射，这种映射中具有相似模式的输入彼此之间要比不同模式的输入要更接近。类似于聚类的效果。

SD-GAN

网络各个分支处理不同文本以产生图像时，模型参数是共享的。利用对比损耗根据两个标题是否来自相同的ground truth图像（intra-class对）。具体计算是通过将每个分支中计算的特征之间距离最小/最大化，从而学习一个语义上有意义的表示

缺点
从文本中提取语义共性，可能会忽略细粒度的语义多样性

解决方案
语义-条件批量归一化，根据语言线索来适应视觉特征映射

![[Pasted image 20230726010102.png]]

简化SD-GAN架构。根据输入到每个分支的两个caption是否来自相同的ground truth图像，对比损失使计算出的特征之间的距离最小化或最大化，从而学习语义共性。语义条件批量归一化是条件批量归一化的一种变体，它以语言线索作为输入，适应视觉特征映射。

SEGAN

训练Siamese架构，利用ground-truth图像之间的特征距离，同时最大化与另一幅不同标题相关的真实图像的距离来实现。为了有效平衡简单样本和困难样本，提出受交点损失启发的滑动损失，以适应简单样本和困难样本对的相对重要性

Text-SeGAN

与上面几种方法不同，没有对不匹配的负向图像样本进行抽样，而是引入几种基于课程学习的策略来选择语义难度逐渐增加的负向图像样本。制定了一个回归任务来估计语义正确性，基于语义距离的编码参考文本。

2.1.5 循环一致性

类似GAN中CycleGAN，否定之否定的一个思想，a到b再生成a’，循环一致性损失就是a和a’之间的差异

PPGN

基于条件网络的反馈，该网络可以作为分类器也可以作为image caption网络，用于条件图像合成。核心思想是迭代找到潜在编码，引导generator生成图像，该图像在反馈网络中要最大化激活特定特征。这个框架中，经过训练的生成器可以插入不同反馈网络重新使用。

MirrorGAN

重新描述架构生成循环一致性的图像，通过附加caption网络学习文本图像之间语义一致性的表示，并训练网络从合成的图像中生成语义相似的caption。否定之否定的一个思路。除了图像和图像文本对抗匹配损失之外，还利用基于交叉熵的文本重构损失来描述输入标题和重新描述的标题之间的语义进行对齐。

以无监督的方式在潜空间中分解风格和内容

风格通过噪声矢量捕获，内容通过文本嵌入描述。
需要一个额外的encoder接受真实的图像，并推断两个潜在变量（风格和内容），这些变量之后用来生成图像。循环一致性损失约束generator和Discriminator生成的信息内容彼此一致，除了对抗对抗图像损失外，还使用了一个Discriminator来区分联合对象和潜在编码。

2.1.6 记忆网络

DM-GAN

基于动态内存网络的体系结构。包含初始的一个图像生成阶段。存储器写入门以初始图像特征和字特征作为输入，计算每个字的重要性，结合字和图像特征写入存储器插槽。然后进行键寻址和值读取。最后门控响应动态控制输出表示的信息流，以更新图像特征。
采用无条件对抗图像和条件图像-文本匹配损失，此外还使用了DAMSM损失和CA损失

2.1.7 适应无条件模型

在无条件图像生成研究的基础上，将无条件模型结构用于条件T2I生成。

textStyleGAN

使用类似AttenGAN中的预训练的图像文本匹配网络来计算文本和单词的嵌入，连接句子embedding和噪声向量，进行线性映射以产生中间潜空间。Discriminator利用generator中的文字和图像特征进行注意引导。除了Discriminator中的无条件损失和条件损失外，跨模态投影匹配CMPM和跨模态投影分类CMPC损失被用来将caption与生成的图像对齐。

优点
生成比其他T2I模型分辨率更高的图像，并允许语义操作

图像处理思路

可以首先在人脸图像的“微笑”、“年龄”等语义属性对应的中间潜空间中寻找方向，由于StyleGAN中的中间潜空间不需要支持采样，经验表明无条件模型可以解变形初始潜代码，使变异因子更加线性，从而支持语义图像处理

Bridge-GAN

训练过程中采用了generator和Discriminator的渐进生长方案。利用中间网络将文本嵌入和噪声映射到过度映射空间，并提出基于共同信息的两种附加损失。

第一个损失
- 计算中间潜空间与嵌入输入文本之间的共同信息，以保证文本信息在过度空间中存在
第二个损失
- 计算生成图像与输入文本之间的共同信息，以提高图像与输入文本之间的一致性

adapted BigGAN

以等级标签为条件的ImageNet用于T2I生成。此外，提出了一种新的句子内插方法SI来创建内插的句子嵌入，使用所有可用的caption对应的一个特定的图像。与CA相比，SI是一个确定性函数

TVBi-GAN

采用BiGAN的架构，扩展了ALI中隐空间的定义，将句子特征投射到其中。

门机制
强调在给予注意力之前计算单词特征和语义特征之间的重要性
增强语义批量归一化方法
通过诸如随机噪声来稳定基于语言线索的标度平移操作

训练可逆网络融合预训练的export network

训练了一个可逆网络来融合预训练的export network BERT和BigGAN，在它们的表示之间进行转换，并再次利用它们进行文本到图像的合成。
非常有前景的研究方向，以再次使用训练价格昂贵的export network用于其他网络。

2.2 其他T2I方法（额外监督）

可以使用额外信息，如多caption、对话、空间布局、语义掩码、场景图或者鼠标轨迹。使用更多监督的模型通常会推动最先进的性能，但它们在训练期间需要额外的注释。

2.2.1 Multiple Caption

公共数据集通常包含一个以上的图像标题，使用多个caption可以提供额外的的信息，从而更好地描述整个场景

C4Synth

使用交叉循环一致性来使用多个caption，该一致性确保生成的图像与一组语义相似的句子保持一致。
通过遍历所有caption来进行顺序操作，并通过从多个caption提取概念来提高图像质量。

RiFeGAN

将可用图像和caption作为知识库，并用标题匹配机制检索其中兼容的项。通过从多个caption中提取特征来丰富输入的描述，从而引导注意力图像生成器。
提升
与C4Synth不同，RiFeGAN不需要image-caption网络，只执行一次而不是多次

2.2.2 Dialog

单一句子可能不足以提供足够的信息来描述包含多个交互对象的场景

ChatPainter

使用可视化对话数据集，包含每个对话的10个问答对话回合，并与COCO caption配对。对循环和非循环的encoder进行实验，实验表明循环encoder具有较好的效果

VQA-GAN

利用VQA2.0中的问答对，将图像generator设置在本地相关的文本上。以attenGAN为基础

QA-encoder：以QA对为输入来产生全局和局部表示
以QA为条件的GAN：从QA Encoder中获取表示，用两个阶段的过程来生成图像
使用VQA模型的外部VQA损失：鼓励QA对和生成图像之间的相关性

经典VQA模型以图像和问题作为输入，经过分类训练即最小化负对数似然损失，以最大化正确答案的概率。因此，VQA精度可以作为衡量输入QA对与生成的图像之间一致性的指标。除了VQA2.0中的QA对之外，模型还需要以布局的形式进行监督。

不改变体结构的情况下利用VQA数据

通过简单地连接QA对，将其作为额外的训练样本和外部VQA损失，可以提高图像质量和图像法-文本对齐度量的性能。这是一种简单但有效的技术，可以应用于任何T2I模型

2.2.3 Layout

布局到图像的生成任务中，每一个对象都由一个边界框和类标签定义。为generator提供了更多的结构，使图像中的本地化对象更好，并且具有通过更改布局和自动注释生成的图像来允许用户控制生成的优点。研究人员也尝试结合布局信息和文本，以改善T2I模型

GAWWN

在文本描述和对象位置的条件下证明了这种方法在特定数据集CUB-200 Birds下的有效性。
后序工作扩展了PixelCNN，利用关键点和mask从caption中生成了具有可控对象位置的图片

在Generator和Discriminator中添加对象路径方法

明确建模对象的位置和外观。对象路径专注于有意义的位置生成单个对象，而全局路径则生成与整体图像描述和布局相匹配的场景。

OP-GAN

在generator和Discriminator的更高层添加额外的对象路径扩展了这个方法的性能，还使用了额外的边界框匹配损失，使用匹配和不匹配的边界框，图像对

OC-GAN

通过提出一种类似AttenGAN中的DAMSM的场景图相似模块SGSM来解决合并对象和虚假模式的问题

2.2.4 Semantic Mask

研究利用mask来了解物体形状，从而为网络提供更好的信号

获得Semantic Mask方法

第一步：从输入描述中生成布局，用于预测对象形状。
第二步：用一个单级图像generator生成形状和全局句子信息

Obj-GAN

由一个object-driven attentive generator和一个object-wise Discriminator组成。

object-driven attentive generator
- 使用GloVe对象标签嵌入来查询GloVe在句子中相关单词的嵌入。
object-wise Discriminator
- 提供一个信号，判断合成对象是否真实，是否与布局和文本描述相匹配

LeicaGAN

有多个先验学习阶段，text-image Encoder学习语义、纹理、颜色先验，text-mask encoder学习形状和布局先验。将互补的先验知识聚集起来，用来利用局部和全局特征，逐步创建图像。
额外加入了反向训练的模态分类器：用于减少输入文本在投影到底层公共空间时的区域间隙

AGAN-CL

由一个训练生成mask的网络组成，从而提供细粒度信息，比如对象的数量、位置、大小和形状。使用真实和生成mask之间的多尺度损失和全局一致性的额外感知损失
下一步中使用循环自动encoder，将image mask作为输入，从而生成逼真的图像

具有空间约束的end-to-end 架构

利用语义布局实现。将多尺度语义布局与文本语义和隐藏层视觉特征相融合，实现由粗到细的图像生成。每个阶段generator产生图像和另一个布局，供对应的Discriminator使用。
匹配感知Discriminator：用于区分匹配和不匹配的布局文本对，以及真实的和生成的布局。

弱监督方法

利用稀疏的语义实例mask实现的弱监督方法。相比于基于密集像素的mask，稀疏实例mask允许简单的编辑操作，比如添加或者删除对象。
从前景分解背景的两步生成过程，特别擅长控制单个对象的细粒度细节。

2.2.5 scene graphs

多个对象之间的关系通常可以更明确地用结构化文本表示，比如场景图。此外，虽然COCO没有场景图注解，但有其他具有更多细粒度的场景图注释的数据集。这个方法前景十分广阔。
数据集
Visual Genome。平均为每张图像提供21个成对关系

图神经网络

用图神经网络来处理输入场景图，并通过预测每个对象的边界框和分割mask来计算场景布局。单个物体的边界和mask被组合成一个场景布局，之后被用于逐级细化网络cascaded refinement network。ground truth边界框和可选mask在训练中使用，但在测试时用于预测。

分割Mask

分离布局嵌入和外观嵌入，从而用户可以更好地进行控制，此外生成的图像与输入场景图更加匹配。外观属性可以从预定义的集合中选择，也可以从另一个图像中复制。

使用场景图预测物体初始边框

关系单元：由两个边界框组成
可视化关系布局：反映了场景图中的结构（对象和关系），每个实体对应一个细化的边界框
有条件的Stacked GAN：最后在有条件的堆叠GAN框架中使用可视化关系布局来渲染形成最终的图像

使用初始边界框将每个关系单元预测为单独的主谓宾关系（subject-predicate-object）。由于每个实体都可以参与多个关系，所以将所有关系单元都统一起来使用LSTM网络转化为可视化关系布局。

PasteGAN

使用场景图和对象裁剪来指导图像生成过程。场景图提供对空间的安排和交互进行编码，通过对给定对象裁剪提供每个物体的外观，最后将目标裁剪和关系融合在一起，输入图像encoder中生成输出图像。

交互式框架

使用循环架构从不断增长的场景图中生成一致的图像。通过更改场景图来更新从场景图生成的图像，同时尽可能保留之前生成的内容。

鼓励保留之前的图像：通过用之前的图像替换传递给cascaded image generator中的噪声，并在中间步骤的图像之间增加感知损失实现。

2.2.6 鼠标轨迹

TRECS

使用人类注释者在本地化叙述数据集中收集的鼠标轨迹，该数据集将图像与详细的自然语言描述和鼠标轨迹配对。鼠标轨迹为描述提供了稀疏的细粒度的视觉基础。

TRECS通过给定的多个描述以及鼠标跟踪，检索生成图像的语义mask

2.3 T2I模型评估

评估T2I模型的一个方面是图像的真实性，另一个方面是评估文本描述和生成图像之间的语义对齐程度

2.3.1 图像质量指标

GAN笔记 - Inception Score & Fréchet Inception Distance - 知乎 (zhihu.com)

Inception Score

通过预先训练的Inception-V3 network对生成图像进行分类计算，得到一个条件标签分布p(y|x)。IS粗略地衡量了每个图像在分类方面的区别，以及生成的图像总体上有多少变化。IS通常从大量样本(通常为30k或50k)的10次分割中计算，并报告平均值和标准偏差。

缺点

不能检测过拟合
不能测量类内变化
记忆训练集的网络或者每类只生成一幅完美的图像的网络往往可以得到一个很高的IS值
没有考虑ground truth数据，而是使用在ImageNet数据集上预先训练的分类器，该数据集主要包含中心只有一个对象的简单图像

因此，不太适合更复杂的数据集，比如包含多个对象的COCO

Fréchet Inception Distance

FID根据预先训练的网络提取的特征，度量真实图像分布与生成图像分布之间的距离。与IS类似，FID通常从30K或50K的真实和生成的图像样本中计算。

优点
评估GAN时比IS更一致，能够更好捕捉各种干扰

缺点

公式中假设提取的特征服从高斯分布，但实际上并非如此，此外FID的估计值其实有很大偏差，需要相同数量的样本才能进行公平比较。
- 改进：引入内核初始距离KID，是FID的一种无偏选择
- KID缺点又存在自己的缺点：每个样本的数量比较低时，仍然存在很高的方差
FID与IS面临同样的问题，因为它们都依赖于在ImageNet上预先训练的分类器

2.3.2 图像-文本对齐指标

R-precision

通过对提取的图像和文本特征之间的检索结果进行排序，来度量文本描述和生成图像之间的视觉语义相似性

采样
- 首先除了生成图像的ground truth caption之外，还从数据集中随机采样额外的captions
计算余弦相似度
- 计算图像特征与每一个caption嵌入文本之间的余弦相似度，并进行降序排列
比较
- 如果生成图像的ground truth caption位于最上面的r个caption中则视为成功，也就是生成图像是最相似的r个之一。默认的R-prec.通过设置r=1，和随机抽取99个附加caption来计算

也就是说，R-prec.评估生成的图像更类似于ground truth caption，而不是99个随机采样的caption。与之前的指标R-prec类似，通常作为一个大样本（例如30K）图像的平均值计算

缺点

高相似度可能被分配给到全局背景颜色的错误caption或出现在中心的对象。比如白色背景的图像是雪。
对于COCO图像来说常常是失败的

Visual-Sematic Similarity（VS Similarity）

通过预训练好的视觉语义嵌入模型计算图像文本之间的距离来度量合成图像与文本的对齐度。学校两个映射函数，分别将图像和文本映射到一个公共表示空间中，通过公式计算相似度。

没有被社区广泛采用，而且报告的结果也很少

缺点

即使是真实图像的标准差也非常高。不能给出一个非常精确的方法来评估模型的性能
容易造成比较的障碍。使用不同的预训练模型来计算VS相似度时，往往难以比较

Captioning Metrics

采用另一种思路，使用image-caption generator来获得生成图像的caption并报告标准语言度量，生成的caption应该类似于用生成图像的输入caption。然而不同的caption可能正确表达了同一幅图像。

因此，许多这些依赖于N-Gram重叠的指标来计算相似度，是否有失偏颇。因此可能和人类判断无关

Semantic Object Accuracy （SOA）

利用预先训练的对象检测器来评估图像中特定描述的单个对象。图像检测器返回两个指标，分别是SOA-C和SOA-I

SOA-C
- 报告类平均召回率，也就是每个类中检测到的给定对象的图像数量
SOA-I
- 报告图像平均回收率，也就是在检测到所需对象的图像数量方面

作者在每个标签的标题中为标题中为可行的单词简历里一个列表。除了一个false positive caption的列表之外，还包含了被排除的字符串（例如热狗代表狗）

缺点

尽管SOA基于标题中提到的词汇，其中描述大致是可见对象的词汇列表。因此可能不太适合评估对象之间的含义、交互和关系，以及可能的主观性
一幅图像可能包含许多标题中没有特别提到的物体
改进
建议只关注false positive caption，而不计算false negative rate

三、数据集

通常采用2014 COCO split

T2I研究中广泛采用的数据集有Oxford120 Flowers、CUB-200 Birds和COCO。

Oxford-102 Flowers和CUB-200 Birds都是相对较小的数据集，包含大约10k张图像。每个图像描述一个对象，每个图像有十个相关的caption。另一方面，COCO由大约123k张图片组成，每张图片有5个caption。与Oxford-102 Flowers和CUB-200 Birds不同的是，COCO数据集中的图像通常包含多个复杂的、经常相互作用的对象。表1显示了数据集统计信息的概述。大多数T2I作品使用官方的2014年COCO拆分。下图提供了示例图像和相应的caption。

![[Pasted image 20230726164554.png]]