Diffusion扩散模型梳理笔记（二）：LDM (Stable Diffusion核心算法), DiT (Transformer架构）

最新推荐文章于 2025-09-04 15:30:59 发布

原创最新推荐文章于 2025-09-04 15:30:59 发布 · 3.9k 阅读

CC 4.0 BY-SA版权

文章标签：

6 篇文章

订阅专栏

【如果笔记对你有帮助，欢迎关注&点赞&收藏，收到正反馈会加快更新！谢谢支持！】

改进点：扩散在潜空间(latent space)实现【对比：DDPM是图像像素层面的扩散，效率低】
Pipeline：
- 由 VQ-VAE【编码图像 $x$ 到离散特征 $z$ ，再解码回图像】和 Diffusion【对离散特征 $z$ 操作】组成
- 前向：图像【输入】→ VQVAE的编码器【得离散特征 $z$ 】→ Diffusion对 $z$ 加噪 → $z_T$
- 反向： $z_T$ → U-Net去噪【每层由CNN和交叉注意力实现，并加入条件控制生成】→ $z$ → VQVAE解码器 → 图像
条件机制：
- 先用领域编码器 $\tau_{\theta}(y)$ 将不同条件转化为特征（比如文本用Bert，图像用CLIP）
- 特征作为U-Net中交叉注意力的 key 和 value
为什么在潜空间扩散会加速？
- 潜空间的特征是VQVAE压缩之后的特征，比图像特征小很多