diffusion model原理和算法伪代码

最新推荐文章于 2024-07-24 22:13:06 发布

长星照耀十三州府_

最新推荐文章于 2024-07-24 22:13:06 发布

阅读量2.1k

点赞数 2

分类专栏：视频编码计算机视觉论文笔记文章标签：算法机器学习 python

本文链接：https://blog.csdn.net/weixin_43721070/article/details/125682051

版权

视频编码同时被 3 个专栏收录

16 篇文章 13 订阅

订阅专栏

论文笔记

9 篇文章 2 订阅

订阅专栏

计算机视觉

5 篇文章 0 订阅

订阅专栏

文章目录

- Diffusion model

Diffusion model

奠基性的工作：

Ho,(2020),Denoising diffusion peobabilistic models
Sohi,(2015), Deep unsupervised learning using nonequilibruim thermodynamics

前置数学知识

条件概率的一般形式
$P (B, C ∣ A) = P (B ∣ A) P (C ∣ A, B)$
基于马尔可夫假设的条件概率

假设马尔可夫链关系 $A\to B\to C$ ，有
$P (A, B, C) = P (C ∣ B) P (B ∣ A) P (A)$
高斯分布的KL散度

对于两个单一变量的高斯分布p和q而言，他们的KL散度满足
$KL(\mathcal{N}(\mu_1,\sigma_1^2),\mathcal{N}(\mu_2,\sigma_2^2))=\log\frac{\sigma_2}{\sigma_1}-\frac{1}{2}+\frac{\sigma_1^2+(\mu_1-\mu_2)^2}{2\sigma_2^2}$
推导详见CSDN博客
参数重整化

若希望从高斯分布 $\mathcal{N}(\mu,\sigma^2)$ 中采样，可以先从标准分布 $\mathcal{N}(0,1)$ 得到 $z$ ，得到 $\sigma\cdot z+\mu$ 。

这样就可以将 $\sigma$ 和 $\mu$ 也作为仿射网络的一部分，而不是不可导的环境参数。

这个技巧在VAE和Diffusion model中大量被使用。

VAE和多层VAE回顾

1. 单层VAE的原理

$x\to z,\quad q_{\phi}(z|x)\\ z\to x,\quad p_{\theta}(x|z)$

此时 $x$ 的边缘概率分布可以改写为关于z的期望式
$\begin{aligned} p(x)&=\int_zp_\theta(x|z)p(z)\text{d}z\\ &=\int_zq_\phi(z|x)\frac{p_\theta(x|z)p(z)}{q_\phi(z|x)}\text{d}z\\ &=\mathbb{E}_{z\sim q_\phi(z|x)}\frac{p_\theta(x|z)p(z)}{q_\phi(z|x)} \end{aligned}$
此时的Evidence存在一个lower bound（ELBO）
$\log p(x)=\log\mathbb{E}_{z\sim q_\phi(z|x)}\frac{p_\theta(x|z)p(z)}{q_\phi(z|x)} \ge\mathbb{E}_{z\sim q_\phi(z|x)}\log\left[\frac{p_\theta(x|z)p(z)}{q_\phi(z|x)}\right]$
在训练中,我们需要最大化对数似然，即Evidence，可以通过最小化lower bound实现，而这个lower bound可以分为两部分：

$\mathbb{E}_{z\sim q_\phi(z|x)}p_\theta(x|z)$ ，可以通过神经网络实现预测
$-\mathbb{E}_{z\sim q_\phi(z|x)}\log \frac{q_\phi(x|z)}{p(z)}$ ，即两个分布的KL的散度，一般可假设 $z$ 服从高斯分布，而 $q_\phi(x|z)$ 也逼近高斯分布，而两个高斯分布的KL散度存在公式

所以，单层VAE的损失函数是可优化的。

2. 多层VAE的原理

在这里插入图片描述

基于同样的原理，
$\begin{aligned} p(x)&=\int_{z_1}\int_{z_2}p_\theta(x,z_1,z_2)\text{d}z_1\text{d}z_2\\ &=\int_{z_1}\int_{z_2}q_\phi(z_1,z_2|x)\frac{p_\theta(x,z_1,z_2)}{q_\phi(z_1,z_2|x)}\text{d}z_1\text{d}z_2\\ &=\mathbb{E}_{z1,z_2\sim q_\phi(z_1,z_2|x)}\frac{p_\theta(x,z_1,z_2)}{q_\phi(z_1,z_2|x)} \end{aligned}$
得到
$\log p(x)\ge \mathbb{E}_{z1,z_2\sim q_\phi(z_1,z_2|x)}\log \frac{p_\theta(x,z_1,z_2)}{q_\phi(z_1,z_2|x)}$
如果上述过程满足马尔科夫假设，即
$p_\theta(x,z_1,z_2)=p(x|z_1)p(z_1|z_2)p(z_2)\\ q(z_1,z_2|x)=q(z_1|x)q(z_2|z_1)$
(6)式能够被进一步简化为
$\mathcal{L}(\theta,\phi)=\mathbb{E}_{q(z_1,z_2|x)} \left[ \log p(x|z_1)-\log q(z_1|x)+\log p(z_1|z_2) -\log q(z_2|z_1) +\log p(z_2) \right]$

Diffusion model

在这里插入图片描述

从右往左，从目标分布到噪声分布称为扩散过程，而我们希望学习到从左往右的逆扩散过程。上图中的第一行从左往右是扩散过程，第二行从右往左是逆扩散过程，而第三行是前两者的差值，称为偏移量。

扩散过程（Diffusion Process）

给定初始数据分布 $\bold{x_0}\sim q(\bold{x})$ ，不断向分布中添加高斯噪声，噪声的标准差是以 $\beta_t$ 确定的，均值是以固定值 $\beta_t$ 和当前时刻的数据 $\bold{x_t}$ 决定的，所以该过程并没有需要学习的参数，而且是一个马尔科夫链过程。
随着 $t$ 的不断增大，最终数据分布 $x_T$ 变成了一个各项独立的高斯分布
$q(\bold{x_t|x_{t-1}})=\mathcal{N}(\bold{x_t};\sqrt{1-\beta_t}\bold{x_{t-1},\beta_t\bold{I}})$

$q(\bold{x_{1:T}|x_o})=\prod^{T}_{t=1}q(\bold{x_t|x_{t-1}})$

这充分体现了参数重整化的技巧。
任意时刻的 $q(\bold{x_t})$ 推导也可以完全基于 $\bold{x}_0$ 和 $\beta_t$ 计算得到闭式解，而不需要做迭代。（令 $\alpha_t=1-\beta_t$ ）

两个正态分布 $X\sim \mathcal{N}(\mu_1,\sigma_1)$ 和 $Y\sim \mathcal{N}(\mu_2,\sigma_2)$ 叠加后的分布 $a X + b Y$ 服从分布 $\mathcal{N}(a\mu_1+b\mu_2,a^2\sigma_1^2+b^2\sigma_2^2)$ 。

对于第 $t$ 步的分布 $x_t$ 等于上一步的分布 $x_{t-1}$ 加上高斯噪声 $z_{t-1}$ ，即
$\begin{aligned} \bold{x}_t&=\sqrt{\alpha_t}\bold{x}_{t-1}+\sqrt{1-\alpha_t}\bold{z}_{t-1}\qquad ;\text{where} \ \bold{z_{t-1}},\bold{z_{t-2}},...\sim \mathcal{N}(\bold{0},\bold{I})\\ &=\sqrt{\alpha_t\alpha_{t-1}}\bold{x}_{t-2}+{\color{red} \sqrt{\alpha_t-\alpha_t\alpha_{t-1}}\bold{z}_{t-2}+\sqrt{1-\alpha_t}\bold{z_{t-1}}} \end{aligned}$
这里借助参数重整化的技巧，将红色部分的两个高斯分布合并为新的高斯分布，整理如下所示
$\begin{aligned} \bold{x}_t&=\sqrt{\alpha_t\alpha_{t-1}}\bold{x}_{t-2}+{\color{red} \sqrt{1-\alpha_t\alpha_{t-1}}\bar{\bold{z}}_{t-2}} \end{aligned}$
其中， $\bar{\bold{z}}_{t-2}\sim \mathcal{N}(\bold{0},\bold{I})$

重复上面的步骤，最终可以得到 $\bold{z}_t$ 的闭式解
$\bold{x}_t=\sqrt{\bar{\alpha}_t}\bold{x}_0+\sqrt{1-\bar{\alpha}_{t}}\bold{z}\qquad ;\text{where}\ \bar{\alpha}_t=\prod_{i=1}^T\alpha_i$
此时，作者认为 $\bold{x}_t\sim \mathcal{N}(\bold{x}_t;\sqrt{\bar{\alpha}_t}\bold{x}_0,\sqrt{1-\bar{\alpha}_t}\bold{I})$ ，（此处应该是认为 $\bold{x}_0$ 是完全已知的，方差为零），最终当上述分布趋近于 $\mathcal{N}(\bold{0},\bold{I})$ 的时候，可认为模型已经基本完成扩散过程。因此，作者给出了一种 $\beta_t$ 的设置经验， $\beta_1<\beta_2<\cdot\cdot\cdot<\beta_T$ ，即随着扩散深度的加深，逐步扩大 $\beta$ 。

逆扩散过程（Reverse Process）

逆过程是从高斯分布中恢复原始数据，当 $\beta_t$ 足够小时，逆过程的每一小步 $p_\theta(\bold{x}_{t-1}|\bold{x}_t)$ 也可视作高斯分布，即
$p_\theta(\bold{x}_{t-1}|\bold{x}_t)=\mathcal{N}(\bold{x}_{t-1};\bold{\mu_\theta}(\bold{x}_t,t),\sum_\theta(\bold{x}_t,t))$
逆扩散过程可以被总结为如下形式
$p_\theta(\bold{x}_{0:T})=p(\bold{x}_T)\prod_{t=1}^Tp_\theta (\bold{x}_{t-1}|\bold{x}_t)$
此处通过使用网络估计参数 $\theta$ 以实现逆扩散过程。

后验的扩散条件概率 $q(x_{t-1}|x_t,x_0)$ 存在闭式解

根据条件概率的贝叶斯公式
$q(\bold{x}_{t-1}|\bold{x}_t,\bold{x}_0)q(\bold{x}_t|\bold{x}_0)=q(\bold{x}_{t}|\bold{x}_{t-1},\bold{x}_0)q(\bold{x}_{t-1}|\bold{x}_0)$
得到
$\begin{aligned} q(\bold{x}_{t-1}|\bold{x}_t,\bold{x}_0)&=q(\bold{x}_{t}|\bold{x}_{t-1},\bold{x}_0)\frac{q(\bold{x}_{t-1}|\bold{x}_0)}{q(\bold{x}_t|\bold{x}_0)}\\ &\propto \exp \left(-\frac{1}{2}\left(\frac{(\bold{x}_t-\sqrt{\alpha_t}\bold{x}_{t-1})^2}{1-\alpha_t}+\frac{(\bold{x}_{t-1}-\sqrt{\bar{\alpha}_{t-1}}\bold{x}_0)^2}{1-\bar{\alpha}_{t-1}}-\frac{(\bold{x}_{t}-\sqrt{\bar{\alpha}_{t}}\bold{x}_0)^2}{1-\bar{\alpha}_{t}}\right)\right)\\ &=\exp\left(-\frac{1}{2}\left({\color{blue} a}\bold{x}_{t-1}^2+{\color{red} b}\bold{x}_{t-1}+c(\bold{x}_t,\bold{x}_0)\right)\right) \end{aligned}$
可见，上述分布的核心可以用一个二次函数来描述，那对应的中轴线应该是
$\begin{aligned} \bold{\tilde\mu_t}(\bold{x}_t,\bold{x}_0)&=-\frac{\color{red}{b}}{2\color{blue}{a}}\\ &=\frac{\sqrt{\alpha_t}(1-\bar{\alpha}_{t-1})}{1-\bar{\alpha}_t}\bold{x}_t+\frac{\sqrt{\bar{\alpha}_{t-1}}\beta_t}{1-\bar{\alpha}}\bold{x}_0 \end{aligned}$
容易从扩散过程的表达式（式11）得到 $\bold{x}_0$ 的表达式
$\bold{x}_0=\frac{1}{\sqrt{\bar{\alpha}_t}}\left(\bold{x}_t-\sqrt{1-\bar{\alpha}_{t}}\bold{z}\right)$
带入得到
$\begin{aligned} \bold{\tilde\mu_t}(\bold{x}_t,\bold{x}_0) &=\frac{\sqrt{\alpha_t}(1-\bar{\alpha}_{t-1})}{1-\bar{\alpha}_t}\bold{x}_t+\frac{\sqrt{\bar{\alpha}_{t-1}}\beta_t}{1-\bar{\alpha}}\frac{1}{\sqrt{\bar{\alpha}_t}}\left(\bold{x}_t-\sqrt{1-\bar{\alpha}_{t}}\bold{z}\right)\\ &=\color{green}{\frac{1}{\sqrt{\alpha}_t}\left(\bold{x}_t-\frac{\beta_t}{\sqrt{1-\bar{\alpha}_t}}\bold{z}_t\right)} \end{aligned}$
这就是 $\bold{x}_{t-1}$ 分布的均值表达式，即给定 $\bold{x}_0$ 的条件下，后验条件高斯分布的均值计算只与 $\bold{x}_{t}$ 和 $\bold{z}_t$ 有关。

目标-数据分布的似然函数

我们在待优化的目标数据分布的似然函数（负）上加一个非负的KL散度，构成负对数似然的上界，通过最小化上界，负对数似然自然取得最小。
$\begin{aligned} -\log p_\theta(\bold{x}_0) &=-\log p_\theta(\bold{x}_0) + D_{KL}(q(\bold{x}_{1:T}|\bold{x}_0)||p_\theta(\bold{x}_{1:T}|\bold{x}_0))\\ &=-\log p_\theta(\bold{x}_0) +\mathbb{E}_{\bold{x}_{1:T}\sim q(\bold{x}_{1:T}|\bold{x}_0)}\left[\log \frac{q(\bold{x}_{1:T}|\bold{x}_0)}{p_\theta(\bold{x}_{0:T})/p_\theta (\bold{x}_0)}\right]\\ &=-\log p_\theta(\bold{x}_0) +\mathbb{E}_{\bold{x}_{1:T}\sim q(\bold{x}_{1:T}|\bold{x}_0)}\left[\log \frac{q(\bold{x}_{1:T}|\bold{x}_0)}{p_\theta(\bold{x}_{0:T})}+\log p_\theta (\bold{x}_0)\right]\\ &=\mathbb{E}_{\bold{x}_{1:T}\sim q(\bold{x}_{1:T}|\bold{x}_0)}\left[\log \frac{q(\bold{x}_{1:T}|\bold{x}_0)}{p_\theta(\bold{x}_{0:T})}\right]\qquad \color{blue}{=L_{VLB}} \end{aligned}$
我们也可以继续对 $L_{VLB}$ 进行展开，过程比较繁琐，建议查看论文，最终的形式如下
${\color{blue}{L_{VLB}}}=\mathbb{E}_q\left[D_{KL}\left(q(\bold{x}_T|\bold{x}_0)||p_\theta (\bold{x}_T)\right)+{\color{red} \sum_{t=1}^TD_{KL}(q(\bold{x}_{t-1}|\bold{x}_t,\bold{x}_0)||p_\theta(\bold{x}_{t-1}|\bold{x}_t))}\right]$
其中第一项是不含待优化参数的，仅仅需要优化第二项即可。而且作者将 $p_\theta(\bold{x}_{t-1}|\bold{x}_t)$ 的方差设置为与 $\beta$ 有关的常数，可训练参数仅存在其均值中。

我们已经知道 $q(\bold{x}_{t-1}|\bold{x}_t,\bold{x}_0)$ 服从高斯分布，并给出了其均值的表达式，而且知道 $p_\theta(\bold{x}_{t-1}|\bold{x}_t)$ 也服从高斯分布，其方差设置为常数，仅需优化均值即可。使用文章开头给出的两个单一变量的高斯分布的KL散度表达式，两个分布的方差均为常数，最终的损失函数可以写作两个分布的均值的关系：
${\color{red} L_{t-1}}=\mathbb{E}_q\left[\frac{1}{2\sigma_t^2}||\tilde{\bold\mu}_t(\bold{x}_t,\bold{x}_0)-\mu_\theta(\bold{x}_t,t)||^2\right]+C$
我们可以将已经得到的 $\mu_t$ 的表达式，进行简化得到最终的损失函数：
$L_{\text{simple}}(\theta):=\mathbb{E}_{t,\bold{x}_0,\bold\epsilon}\left[||\bold\epsilon-\bold\epsilon_\theta(\sqrt{\bar{\alpha}_t}\bold{x}_0+\sqrt{1-\bar{\alpha}_t}\bold\epsilon,t)||^2\right]$
这里， $\epsilon_\theta$ 就是可学习的网络，输入 $\bold{x}_0$ 和高斯噪声 $\epsilon$ 以及时刻 $t$ 。

Diffusion Probabilistic Model的算法代码

Training

repeat
$x_0\sim q(x_0)$
$t\sim \text{Uniform}(\{1,2,..,T\})$
$\epsilon\sim \mathcal{N}(\bold{0},\bold{I})$
Take gradient descent step on
$\nabla _\theta||\bold\epsilon-\bold\epsilon_\theta(\sqrt{\bar{\alpha}_t}\bold{x}_0+\sqrt{1-\bar{\alpha}_t}\bold\epsilon,t)||^2$
until converged

Sampling

优化好网络 $\epsilon_\theta$ 之后，可以从 $x_T$ 逐步获得 $x_0$

$x_T\sim\mathcal{N}(\bold{0},\bold{I})$
for $t = T, T - 1, . . ., 1$ do
$\bold{z}\sim{\mathcal{N}(\bold{0},\bold{I})}$ if $t > 1$ else $\bold{z}=\bold{0}$
$\bold{x}_{t-1}=\mu_\theta(\bold{x}_t,t)+\sigma_t\bold{z}=\frac{1}{\sqrt{\alpha_t}}\left(\bold{x}-\frac{1-\alpha_t}{\sqrt{1-\alpha_t}}\epsilon_\theta(\bold{x}_t,t\right)+\sigma_t\bold{z}$
end for
return $x_0$