Stable_diffusion技术路线总结(SDXL、SD 1.4/1.5、SD 2.0/2.1)

本文链接：https://blog.csdn.net/weixin_46635816/article/details/146243163

在这里插入图片描述

📖 Stable_diffusion技术路线总结(SDXL、SD 1.4/1.5、SD 2.0/2.1)

1 改进

1 模型结构改进

图片描述

图1 SDXL和较早的Stable Diffusion Model比较

扩散模型提出后，模型结构在不断的改进。先后引入了自注意力机制、upscaling layers和交叉注意力机制。在这样的机制引入到扩散模型中后，文生图的效果得到了提升。
SDXL的作者也尝试对模型结构进行改进。主要把Transformer转移到UNet的低级特征中去。
表格中展示了SDXL省略了浅特征层的Transformer块，而是在深特征层中分别使用了2和10个Transformer块。这样做的好处是：

能够高效的分配计算资源。浅层特征的特征图分辨率较大，一般是512x512或256x256。Transformer的计算成本与特征长度平方成正比，所以SDXL省略了浅特征层（高分辨率特征图）的Transformer块。
深层特征图的分辨率较低，此时需要整合全局上下文信息，例如场景分布、物体之间的关系之类的。而Transformer对捕捉全局依赖关系更加的擅长，所以深层特征提取提引入更多Transformer块有助于提升模型的全局建模能力。
在文本编码器上，SDXL使用了CLIP ViT-L & OpenCLIP ViT-bigG作为文本编码器，而SD 1.4/1.5用的是CLIP ViT-L,SD 2.0/2.1用的是OpenCLIP ViT-H。

2 对训练数据处理的改进

在这里插入图片描述

图2 预训练数据中的图片高宽分布在使用Latent Diffusion Models训练时，通常会选择一个固定的最小分辨率来对数据做统一的处理。如果图像分辨率不足，只能丢弃或者插值上采样。但是训练数据中存在大量的低分辨率的图像，采用丢弃策略会导致大量数据不能参与训练。但采用插值长采样时，会导致生成的图像有伪影和模糊。这里SDXL提出一种新的思想来解决这个问题。首先让模型知道原图实际大小，把原始高宽（h_original,w_original）作为额外的条件输入给模型。然后用傅里叶特征对原始高宽进行编码，加入到模型的时间步embedding中。这样处理的好处是使得模型学会分辨“真实的分辨率”。

3 裁剪参数的裁剪条件的改进

在这里插入图片描述

图3 SDXL与之前版本的Stable Diffusion 输出结果的比较

在图像数据Pipeline中，常见的做法是将图像短边缩放到训练目标尺寸，然后从长边进行随机裁剪。这会导致模型学到的分布中，经常出现主体被裁掉的情况,比如猫的耳朵被裁掉、人脸被截断等如图3所示，在生成图像时也会出现此类裁剪问题。和尺寸条件类似，把随机裁剪产生的偏移量 ( $C_{top}$ , $C_{left}$ ) 也作为模型的额外条件输入。这样，模型不仅得到裁剪后的图像，也获得了“裁剪在何处发生”的信息。具体做法是在当对图像随机裁剪时，记录下裁剪起点( $C_{top}$ , $C_{left}$ )，将( $C_{top}$ , $C_{left}$ )用傅里叶编码，并且拼接到模型的条件向量中。这样的作用是：