1、Text to Image
1.1 Text to Image 的一般结构
主要由三个部分组成:Text Encoder、Generation Model、Decoder。其中三个部分可以分开训练,再组合到一起。接下来分别介绍这三个部分。
1.2 Text Encoder
实验表明Text Encoder对整个模型的影响是非常大的。很多模型可以被用来做Encoder,eg:ber。至于训练我们可以采用如下的方式进行:
1.3 Generation Model
一个加减噪声构造数据并训练的过程。
1.4 Decoder
这部分数据的训练实际上不需要文字的资料,进需要图片资料。在训练这部分时,我们往往需要一个auto-encoder,目标是使得输入和输出十分相似。