学习目标:
一、Stable Diffusion 论文
学习时间:
2023.6.3-2023.6.9
学习产出:
一、模型进展
相比前两周的结果,本周改进了一下参数,FID达到了9
前两周结果为10.258
本周相比前两周FID降低1
二、High-Resolution Image Synthesis with Latent Diffusion Models论文
结构
训练之前需要预训练一个自编码器(包括编码器ε和解码器D)。利用编码器对图片进行压缩,然后在潜在表示空间做扩散操作,最后使用解码器恢复到原始像素空间,使用自编码器的优点是只需要训练一次就能将其用在不同的任务,方便将模型从图像推广到音频、视频、文本等领域。
感知压缩
扩散模型训练分为两个阶段,第一个阶段是训练自编码器,学习到一个在感知上等同于图像控件的潜在表示空间,同时作者使用KL-reg和VQ-reg两种正则化的方法避免潜在表示空间出现高度异化。第二阶段则是训练扩散模型,使用的模型为time-conditional UNet,扩散过程与其他扩散模型没有区别。
具体来说,给定图像 先利用一个编码器将图像编码到潜在表示空间,其中 ,然后再用解码器从潜在表示空间重建图片。
潜在表示空间
潜在扩散模型中,引入了预训练的感知压缩模型,它包括一个编码器和一个解码器。这样在训练时就可以利用编码器得到Zt,从而让模型在潜在表示空间中学习,相应的目标函数如下:
条件机制
除了无条件图像生成外,也可以进行条件图像生成,这主要是通过拓展得到一个条件时序去噪自编码器
来实现的,这样就可通过 y来控制图片合成的过程。论文中通过在UNet主干网络上增加Cross-Attention机制来实现。为了能够从多个不同的模态预处理y,论文引入了一个领域专用编码器(domain specific encoder)Tθ,它用来将y映射为一个中间表示,这样就可以引入其他条件(文本、类别、layout等等)。最终模型通过一个Cross-Attention层映射将控制信息融入到UNet的中间层,Cross-Attention层的实现如下: