扩散模型的原理网上已经有很多解析了,但是目前扩散模型的结构设计以及改进也层出不穷,接下来就介绍一些经典或最新的结构,也是为了促使自己多看论文,快速入门。
也欢迎小伙伴推荐补充~
DDPM
这篇论文应该是扩散模型的必读之作。
- 输入:加噪图像[b, 3, h, w], 时间[t,]
- 输出:x_0或者噪声
时间t经过最常见的频率编码,随后经过MLP得到时间编码time embed。
加噪的输入图像经过encoder-mid-decoder的结构,其中还使用了skip-connection的技巧,将encoder的每一层保存起来,在decoder对应层的时候与上一层的输出concat再送入下一层。
encoder的每一层包括多个卷积残差块和自注意力块的堆叠。除去最后一层,每层的最后还会跟一个下采样层。
mid的每一层结构为残差卷积块+自注意力块+残差卷积块
decoder的每一层也包括阔哥卷积残差块与自注意力块的堆叠。除去第一层,每层的最后会跟一个上采样层。