Diffusion model笔记

喝点暖气水叭

已于 2023-02-27 20:17:02 修改

阅读量419

点赞数

分类专栏：计算机视觉 Diffusion model 文章标签：深度学习人工智能神经网络

于 2022-10-12 20:55:20 首次发布

本文链接：https://blog.csdn.net/xjlzds/article/details/127283833

版权

计算机视觉同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

Diffusion model

1 篇文章 0 订阅

订阅专栏

可以观看Diffusion model来学习一些Diffusion model内容：链接

Diffusion model

Diffusion model定义了总的来说就是包含一个扩散过程和一个逆扩散过程，扩散过程中使用马尔可夫链将噪声加入到数据中，逆扩散过程是用噪声构造所需的数据样本。这两个过程都是迭代完成的。
训练好的模型就没有前向过程了。
在这里插入图片描述
前向传播过程：

在这里插入图片描述

反向扩散过程
在这里插入图片描述
总过程：

前向过程

①首先引入一个式子 $\alpha_t=1-\beta_t$ ，其中 $\beta$ 要越来越大，论文中是0.0001到0.002，也就是说 $\alpha$ 要越来越小。
其中 $\alpha_t$ 类似于如下图。（注意：可以使用线性变小，也可使用其他的方法）
在这里插入图片描述

②然后再来看
设 $x_t$ 是t时刻的一个分布，可以看上面前向过程的图，可以看出 $x_t$ 时刻当前分布是由 $x_{t-1}$ 时刻计算出来，加了些噪音，类似于RNN递归结构。
公式为 $x_t=\sqrt{\alpha_t}x_{t-1}+\sqrt{1-\alpha_t}z_1$
$z_1$ 可以理解为噪音。
$\sqrt{\alpha_t}$ 和 $\sqrt{1-\alpha_t}$ 可以理解为两个权重。

③然后看最开始的公式，越到最后 $\alpha_t$ 越小，也就是 $\sqrt{\alpha_t}$ 越小， $\sqrt{1-\alpha_t}$ 越大，说明越往后加的噪声影响越大。

现在想一个问题，如果是递归，从 $x_0$ 运算到 $x_t$ 会不会太慢了
可不可以直接从 $x_0$ 直接得到 $x_t$ ?
④先计算 $x_{t-1}$ :
$x_{t-1}=\sqrt{\alpha_{t-1}}x_{t-2}+\sqrt{1-\alpha_{t-1}}z_2$
然后带入到 $x_t$ 中得到：
$x_t=\sqrt{\alpha_t}(\sqrt{\alpha_{t-1}}x_{t-2}+\sqrt{1-\alpha_{t-1}}z_2)+\sqrt{1-\alpha_t}z_1$
展开：
$x_t=\sqrt{\alpha_t}\sqrt{\alpha_{t-1}}x_{t-2}+(\sqrt{a_t(1-\alpha_{t-1})}z_2+\sqrt{1-\alpha_t}z_1)$

⑤因为 $z_1和z_2$ 都符合高斯分布分别为 $N(0,1-\alpha_t)$ 和 $N(0,\alpha_t(1-\alpha_{t-1}))$
相加后仍然符合高斯分布：在这里插入图片描述
所以可以化简为：
$x_t=\sqrt{\overline{\alpha_t}}x_{0}+\sqrt{1-\overline{\alpha_t}}z_t$
所以任意时刻的 $x_t$ 都可以通过 $x_0$ 得到。
接下来是逆向过程。

逆向过程

逆向过程是一个去噪的过程，也就是上面那个逆过程。
目前没有办法直接从 $x_t$ 直接算到 $x_0$
⑥逆向过程就是 $x_t$ 求 $x_{t-1}$
利用贝叶斯公式求：
$q(x_{t-1}|x_t,x_0)= q(x_{t}|x_{t-1},x_0)\frac{q(x_{t-1}|x_{0})}{q(x_{t}|x_{0})}$

根据上面⑤讲的：
在这里插入图片描述
⑦正态分布：一个数学期望为μ、方差为 $σ^2$ 的正态分布 $X\sim N(μ,σ^2)$
函数为： $exp(-\frac{(X-μ)^2}{2σ^2})$
正态分布展开后，乘法就相当于加，除法就相当于减。

则 $q(x_{t}|x_{t-1},x_0)\frac{q(x_{t-1}|x_{0})}{q(x_{t}|x_{0})}$
在这里插入图片描述继续化简：

⑧
C是个常数项，不影响。

这个式子跟上面的式子进行对比，可以得到期望和方差。
根据公式⑧可以得到在这里插入图片描述
之前说 $x_t$ 可以由 $x_0$ 计算得到，现在逆运算一下
$x_0 = \frac{1}{\sqrt{\overline\alpha_{t}}}(x_t-\sqrt{1-\overline\alpha_t}z_t)$
最终结果 $\widetilde u =\frac{1}{\sqrt{\overline\alpha_{t}}}(x_t-\frac{\beta_t}{\sqrt{1-\overline\alpha_t}}z_t)$
⑨ $z_t$ 怎么求?
$z_t$ 其实就是我们要估计的每一个时刻的噪声
我们可以训练一个模型来进行计算，一些相关论文里使用的unet结构来进行计算。
在这里插入图片描述
UNet是一样的，传进来输入是不同的。

DDPM论文中的训练和采样方法（就是那两个阶段）在这里插入图片描述

Training

(2)首先先取数据->(3)构建T序列->(4)加符合正态分布的噪声->(5)模型学习
细节:
①在3中假设batch是4个，T为200，每一个img会随机取T值，比如 $T_1$ =30， $T_2$ =150， $T_3$ =60， $T_4$ =180，
②在5中，其中 $\epsilon_{\theta}$ 为神经网络模型，通过输入 $x_t$ 和 $t$ 预测 $\epsilon$ ,目标为缩小与真实的 $\epsilon$ 的差距。 $t$ 相当于是一个时刻（t越大，噪声越大，要告诉模型），类似于transformer的位置编码。
再看一下损失，前面的 $\epsilon$ 为真实值，减去后面那一坨（预测值），就是损失。
总的来说就是为了得到Unet模型，在unet中还有attention。