Diffusion Model合集 part3_#(带入μˉ(xt,x0)的表达式,上述的x0可不做替换)-CSDN博客

本文链接：https://blog.csdn.net/weixin_43845922/article/details/128395468

扩散模型原理介绍3

八，Diffusion Probabilistic Model的算法代码

而我们可以有多种建模目标：

L_{t-1}=\mathbb{E}_{q}\left[\frac{1}{2\sigma_{t}^{2}}||\overset{\sim}{\mu_{t}}(\mathbf{x}_{t},\mathbf{x}_{0})-\mu_{\theta}(\mathbf{x}_{t},t)||^{2}\right]+C

【1】直观的做法是让

D_{\theta}

网络的输出等于前向过程中的后验分布均值

\overset{\sim}{\mu_{t}}(x_{t},x_{0})

，这种建模方法俗称预测后验分布的期望值；

【2】根据 $\overset{\sim}{\mu_{t}}(x_{t},{\color{red}x_{0}})$ 的表达式，它里面的 ${\color{red}x_{0}}$ 对于 $D_{\theta}$ 网络是未知的，因此第二种做法是让 $D_{\theta}$ 网络的输出等于 $x_{0}$ ，这种做法即直接预测原始数据。
有人问：既然可以通过 $D_{\theta}$ 网络直接预测 $x_{0}$ 了，那是不是采样过程就直接计算 $D_{\theta}(x_{T}, T)$ 的输出即可认为是生成了样本了呢？
答案是：直接一步到位，质量会比较差，还是需要通过马尔科夫高斯条件迭代而获得最终高质量的生成样本；
$\mathrm{\overset{\sim}{\mu_{t}}(x_{t},{\color{red}x_{0}})}=\frac{\sqrt{\alpha_{t}}(1-\bar\alpha_{t-1})}{1-\bar\alpha_{t}}{\color{blue}x_{t}}+\frac{\beta_{t}\sqrt{\bar\alpha_{t-1}}}{1-\bar\alpha_{t}}{\color{red}x_{0}}$

$x_{t}, t \rightarrow\mu_{\theta}$ 中得到 $x_{0}$
将上面得到的 $x_{0}$ ，和已知的 $x_{t}$ 输入到 $\mathrm{\overset{\sim}{\mu_{t}}(x_{t},{\color{red}x_{0}})}$ 中，则前向过程中的后验分布均值 $\mathrm{\overset{\sim}{\mu_{t}}}$ 就知道了
所以就可以根据对应的 $q(x_{t-1}|x_{t},x_{0}\sim N(\mathrm{\overset{\sim}{\mu_{t}}},\mathrm{\overset{\sim}{\beta_{t}}I})$ 高斯分布重采样，得到 $x_{t-1}$ ，即 $t - 1$ 时刻的样本；同理，迭代最后生成 $x_{0}$

【3】当我们把 $\overset{\sim}{\mu}(x_{t},x_{0})$ 中的 $x_{0}$ 用 $x_{t}$ 去表示的时候， $\overset{\sim}{\mu}(x_{t},x_{0})$ 就变成了如下只包含 $x_{t}$ 和随机变量 $\epsilon$ 的式子，记为 $\overset{\sim}{\mu}(x_{t},\epsilon)$ 。其中 $x_{t}$ 对于D网络是已知的，而 $\epsilon$ 是未知的，因此这个时候，我们可以选择建模目标是让 $D_{\theta}$ 网络的输出等于 $\epsilon$ 了（得到 $\epsilon$ 后,再带入 $\overset{\sim}{\mu}(x_{t},\epsilon)$ ，就可以用重采样技巧推出 $x_{t-1}$ , $\cdots$ 不断迭代 $\cdots$ 就可以求出 $x_{0}$ ），这种建模方法俗称随机变量(噪音)法。

总结：上面【1】【2】【3】殊途同归，都是为了预测 $q(x_{t-1}|x_{t},x_{0})$ 的均值 $\overset{\sim}{\mu}$

$\begin{aligned} L_{t-1}- C&=\mathbb{E}_{\mathbf{x}_{0},\epsilon}\left[\frac{1}{2\sigma_{t}^{2}}\Vert\overset{\sim}{\mu}_{t}\left(\mathbf{x}_{t}(\mathbf{x}_{0},\epsilon),\frac{1}{\sqrt{\bar\alpha_{t}}}(\mathbf{x}_{t}(\mathbf{x}_{0},\epsilon)-\sqrt{1-\bar\alpha_{t}}.\epsilon)\right)-\mu_{\theta}(\mathbf{x}_{t}(\mathbf{x}_{0},\epsilon),t) \Vert^{2}\right]\\ \\ &=\mathbb{E}_{\mathbf{x}_{0},\epsilon}\left[\frac{1}{2\sigma_{t}^{2}}\Vert\underbrace{\frac{1}{\sqrt{\alpha_{t}}}\left(\mathbf{x}_{t}(\mathbf{x}_{0},\epsilon)-\frac{\beta_{t}}{\sqrt{1-\bar\alpha_{t}}}.\epsilon\right)}_{\overset{\sim}{\mu}_{t}}-\underbrace{\mu_{\theta}(\mathbf{x}_{t}(\mathbf{x}_{0},\epsilon),t)}_{\mu_{\theta}} \Vert^{2}\right]\quad\quad\quad⑥\\ \end{aligned}$

在DDPM论文中，作者选择了方案【3】，即让 $D_{\theta}$ 网络的输出等于 $\epsilon$ , 预测噪音法。于是，新的逆向条件分布的均值可以表示成（下式中的 $\epsilon_{\theta}$ 相当于我们定义的广义的 $D_{\theta}$ 网络的具体目标形式）：
$\mu_{\theta}(\mathbf{x}_{t},t)=\overset{\sim}{\mu_{t}}\left(\mathbf{x}_{t},\frac{1}{\sqrt{\bar\alpha_{t}}}(\mathbf{x}_{t}-\sqrt{1-\bar\alpha_{t}}.\epsilon_{\theta}(\mathbf{x}_{t}))\right)=\frac{1}{\sqrt{\alpha_{t}}}\left(\mathbf{x}_{t}-\frac{\beta_{t}}{\sqrt{1-\bar\alpha_{t}}}.\epsilon_{\theta}(\mathbf{x}_{t},t)\right)\quad\quad⑦$

在DDPM论文中预测的就是 $\epsilon$ , 所以就是让上式⑥中的 $\overset{\sim}{\mu}_{t}$ 尽可能地接近于 $\mu_{\theta}$ ,所以才有了上式⑦

又因为在前面我们已知：
$\mathrm{\overset{\sim}{\mu_{t}}(x_{t},x_{0})}=\frac{\sqrt{\alpha_{t}}(1-\bar\alpha_{t-1})}{1-\bar\alpha_{t}}x_{t}+\frac{\beta_{t}\sqrt{\bar\alpha_{t-1}}}{1-\bar\alpha_{t}}x_{0}$
$x_{t}=\sqrt{\bar\alpha_{t}}x_{0}+\sqrt{1-\bar\alpha_{t}}z_{t}$ ，我们可以知道： $x_{0}=\frac{1}{\sqrt{\bar\alpha_{t}}}(x_{t}-\sqrt{1-\bar\alpha_{t}}z_{t})$
所以： $\mathrm{\overset{\sim}{\mu_{t}}(x_{t},x_{0})}\rightarrow\overset{\sim}{\mu_{t}}\left(\mathbf{x}_{t},\frac{1}{\sqrt{\bar\alpha_{t}}}(\mathbf{x}_{t}-\sqrt{1-\bar\alpha_{t}}.\epsilon_{\theta}(\mathbf{x}_{t}))\right)$
说明： $z_{t}$ 就是噪声，即下面的 $\epsilon_{\theta}(\mathbf{x}_{t})$ ,至于为什么写成 $\epsilon_{\theta}(\mathbf{x}_{t})$ ,而不是 $\epsilon$ ？
因为这里我们定义 $\epsilon_{\theta}(\mathbf{x}_{t})$ 是一个函数近似，可以根据输入 $\mathbf{x}_{t}$ 来预测出 $\epsilon$
因为 $\mathbf{x}_{t}$ 不含参数，所以它可以看作常量，我们就把参数转移到随机量 $\epsilon$ 中

$\mathbf{x}_{t}(\mathbf{x}_{0},\epsilon)$ 就说明了 $\mathbf{x}_{t}$ 和 $\epsilon$ 是有一定关系的，现在我们把 $\mathbf{x}_{t}$ 看作常量，那就可以求出来 $\epsilon$ 了，所以我们就定义了一个函数 $\epsilon_{\theta}(\mathbf{x}_{t})$ ,可以根据输入 $\mathbf{x}_{t}$ 来预测出 $\epsilon$

前面说到逆扩散过程中有 $p_{\theta}(\mathbf{x}_{t-1}|\mathbf{x}_{t})=\mathcal{N}(\mathbf{x}_{t-1};\mu_{\theta}(\mathbf{x}_{t},t),\Sigma_{\theta}(\mathbf{x}_{t},t))$ ,实际上在论文中作者设置 $\Sigma_{\theta}(\mathbf{x}_{t},t)=\sigma_{t}\mathbf{I}$ ,所以有： $p_{\theta}(\mathbf{x}_{t-1}|\mathbf{x}_{t})=\mathcal{N}(\mathbf{x}_{t-1};\mu_{\theta}(\mathbf{x}_{t},t),\sigma_{t}\mathbf{I})$ ，利用参数重整化（ $\mathbf{z}\sim N(0,I)$ ），得到： $\mathbf{x}_{t-1}=\sigma_{t}.\mathbf{z}+\mu_{\theta}$ , 带入式子⑦即得：
$\mathbf{x}_{t-1}=\frac{1}{\sqrt{\alpha_{t}}}(\mathbf{x}_{t}-\frac{\beta_{t}}{\sqrt{1-\bar\alpha_{t}}}.\epsilon_{\theta}(\mathbf{x}_{t},t))+\sigma_{t}.\mathbf{z}$

于是 $L_{t-1}$ 可以化简成如下表达式：
$\mathbb{E}_{\mathbf{x}_{0},\epsilon}\left[\frac{\beta_{t}^{2}}{2\sigma_{t}^{2}\alpha_{t}(1-\bar\alpha_{t})}\left\|\epsilon-\epsilon_{\theta}(\sqrt{\bar\alpha_{t}}\mathbf{x}_{0}+\sqrt{1-\bar\alpha_{t}}\epsilon,t)\right\|^{2}\right]$

上式化简的过程中， $\mathbf{x}_{t}$ 和 $\mathbf{x}_{t}(\mathbf{x}_{0},\epsilon)$ 是一样的，可以互相消掉。

DDPM作者又发现，干脆将系数丢掉，训练更加稳定，质量更好，于是有了下面的 $L_{simple}$ :
$L_{simple}(\theta)=\mathbb{E}_{\mathbf{x}_{0},\epsilon}\left[\left\|\epsilon-\epsilon_{\theta}(\sqrt{\bar\alpha_{t}}\mathbf{x}_{0}+\sqrt{1-\bar\alpha_{t}}\epsilon,t)\right\|^{2}\right]$

八，Diffusion Probabilistic Model的算法代码

在这里插入图片描述

Training
$t\in(0,T)$ , $T$ 是可以在前面求出为多少合适的,且 $t$ 是一个embedding
训练的过程 $\approx$ 优化 $-\log p_{\theta}(x_{0})$
Sampling
迭代的次数越多，生成的概率分布越准确
后续的改进：优化迭代次数(减少耗时)