The approach: estimate the distribution of data (images)
Intractable normalizing constant
GAN
Generator + Discriminator 结构
缺点:1. 同时训练两个网络,不够稳定 2. 多样性不足,主要来自随机噪声
Auto Encoder Family
AE
DAE
相对于添加noise,使得模型更加robust,类似MAE模型
AE/DAE 的目的是压缩,ouput是 (bottleneck),再用于分类等任务,并非用于生成任务
并非一个分布,只是一个固定特征用于重建
VAE
Encoder预测的是一个posterior分布
给定先验, 就是likihood,目标为最大似然
VQVAE (Vector-Quantized)
Diffusion Models
Use diffusion process to add noise . Diffuse the original image to a Gaussian Distribution. If this works, we can reverse diffusion (using U-Net structure) to obtain image from random noise.
DDPM - improved DDPM
predict step noise instead of at each step;
temporal emedding的作用,因为diffusion每一step的模型用同一套参数,但是从完全随机到图像每一步逐渐清晰
每一步误差是一个distribution, DDPM限定normal和固定方差,仅需预测均值。
DDPM也可以想成是类似VAE的Encoder-Decoder模型,但有以下区别:
1. DDPM的encode过程是固定的,而VAE的encoder是学出来的
2. DDPM的解码编码前后维度一致,而一般VAE的bottleneck维度比图像小很多
Diffusion beats GAN
用大模型替代U-net,减少步数至25
classifier guidance 牺牲一定多样性,换取生成效果更好 (classfier选择添加噪声的imagenet数据)
所有的引导都是中的
question: 用guided diffusion,可以将guided loss计入生成更好的,其对于y进行优化,但是使用时必须提供和训练相同的y?
GLIDE - DALLE2
classifier-free guidance
*Reference
DALL·E 2(内含扩散模型介绍)【论文精读】_哔哩哔哩_bilibili
From Autoencoder to Beta-VAE | Lil'Log
Berkeley Course
The general idea of generation model:
assume that all data (images) are drawn from an underlying distribution . We parametrize this distrbution with , and estimate using Maximum Likelihood on the training data.
李宏毅 course
Text-to-Image framework
Framework: text encoder - generation - (latent variable representation of image) - image decoder
text encoder and image decoder can be trained seperately (with no text-image pairs data)
DDPM
训练时随机抽取,并直接0-t的error,inference时是step-by-step