李宏毅《生成式AI:Stable diffusion、DALL-E、Imagen背后共同套路》
YouTube:https://www.youtube.com/watch?v=JbfcAaBT66U
共同套路
由三部分构成:
1、Text Encoder
2、Generation Model
3、Decoder
输入的一段文字,进入Text Encoder,输出为几段向量。
上一步输出的向量加上噪声作为Generation Model的输入,经过生成模型输出一个“中间产物”,这个中间产物可以是小图(图片的压缩版本),也可以是一个latent representation。
上一步输出的“中间产物”作为Decoder的输入,经过Decoder,最后生成一张图像。
评价指标
如何去评估图像生成模型的好坏?
根据一段文字生成图像没有标准答案,即便有标准答案,就可以说生成的图像与标准答案不相符就是错误的吗。这就需要特定的指标来进行评估,经常使用的是FID和CLIP。
FID
FID需要有一个pretrain好的CNN模型。蓝色点代表生成图像通过这个分类模型所产生的representation;红色点代表真实的图像通过这个分类模型所产生的representation。这两组分布距离越接近就代表两张图片越相似。
CLIP
Decoder(可在无标签数据上训练)
Decoder的输入有两种情况:
第一种:输入的“中间产物”为小图(Imagen)。
第二种:输入的“中间产物”为Latent Representation。此时,我们需要训练一个Auto-Encoder。
在这个Auto-Encoder中训练得到的我们所需要的Decoder。下图中,“中间产物”的h和w,可以看作是原始图片下采样后的高宽。这个“中间产物”也可以理解为小图,只不过人类无法去理解。