从工程和理论角度理解DDPM（一）

最新推荐文章于 2025-04-02 18:35:19 发布

Jia Di

最新推荐文章于 2025-04-02 18:35:19 发布

阅读量976

点赞数 13

文章标签：算法机器学习概率论

本文链接：https://blog.csdn.net/weixin_45453121/article/details/140590434

版权

从工程和理论角度理解DDPM

说明

紧接着上一篇VAE，继续整理DDPM。

1.与VAE的区别和关系

设数据集 $X$ 的分布 $P (X)$ ，其对于我们是未知的，但可以从里面进行采样。假设采样了一个观测变量 $x_0$ 。
从极大似然出发，然后引入隐变量，再到变分推导这一系列过程其实都和VAE一致，只不过隐变量改了一下

隐变量由单独一个 $z$ 变成了 $x_{1}, x_{2}, \ldots, x_{T}$ ，注意这些不是和 $x_0$ 平行的样本，而是由 $x_0$ 加噪得到的隐变量。
隐变量的维度是没有像VAE一样经过压缩的，即维度和 $x_0$ 一致。
边缘概率密度公式变为了：
$P(x_0) = \int P(x_{0:T}) dx_{1:T}, \ \ \ \ \ P(x_{0:T})=P(x_T)\prod_{t=1}^{T} P_{\theta}\left(x_{t-1} \mid x_{t}\right)$
贝叶斯公式变为了：
$P(x_0) = \frac{P(x_{0:T})}{P(x_{1: T} \mid x_{0})}, \ \ \ \ \ P(x_{1: T} \mid x_{0})=\prod_{t=1}^{T} P\left(x_{t} \mid x_{t-1}\right)$

2.变分推断

变分推断的公式基本和VAE的一致，最终也是转换成求解ELBO的代理任务
概率密度公式推导：
$\begin{aligned} \log P(x_0) & =\log \int P(x_{0:T}) dx_{1:T} \\ & =\log \int \frac{P(x_{0:T}) dx_{1:T} Q_{\phi}(x_{1: T} \mid x_{0})}{Q_{\phi}(x_{1: T} \mid x_{0})} dx_{1:T} \\ & =\log \mathbb{E}_{Q_{\phi}(x_{1: T} \mid x_{0})}\left[\frac{P(x_{0:T})}{Q_{\phi}(x_{1: T} \mid x_{0})} \right] \\ & \geq \mathbb{E}_{Q_{\phi}(x_{1: T} \mid x_{0})}\left[log \frac{P(x_{0:T})}{Q_{\phi}(x_{1: T} \mid x_{0})} \right] \end{aligned}$
贝叶斯公式推导：
$\begin{aligned} log P(x_0) &= log \frac{P(x_{0:T})}{P(x_{1: T} \mid x_{0})} \\ &= log \frac{P(x_{0:T})}{P(x_{1: T} \mid x_{0})} \int Q_{\phi}(x_{1: T} \mid x_{0}) dx_{1:T} \\ &= \int Q_{\phi}(x_{1: T} \mid x_{0}) log \frac{P(x_{0:T})}{P(x_{1: T} \mid x_{0})} dx_{1:T} \\ &= \mathbb{E}_{Q_{\phi}(x_{1: T} \mid x_{0})}\left[log \frac{P(x_{0:T}) Q_{\phi}(x_{1: T} \mid x_{0}) }{P(x_{1: T} \mid x_{0}) Q_{\phi}(x_{1: T} \mid x_{0})} \right] \\ &= \mathbb{E}_{Q_{\phi}(x_{1: T} \mid x_{0})}\left[log \frac{P(x_{0:T}) }{ Q_{\phi}(x_{1: T} \mid x_{0})} \right] + \mathbb{E}_{Q_{\phi}(x_{1: T} \mid x_{0})}\left[log \frac{ Q_{\phi}(x_{1: T} \mid x_{0}) }{ P(x_{1: T} \mid x_{0}) } \right] \\ &= \mathbb{E}_{Q_{\phi}(x_{1: T} \mid x_{0})}\left[log \frac{P(x_{0:T}) }{ Q_{\phi}(x_{1: T} \mid x_{0})} \right] + D_{\mathrm{KL}}\left(Q_{\phi}(x_{1: T} \mid x_{0}) \| P(x_{1: T} \mid x_{0}) \right) \\ & \geq \mathbb{E}_{Q_{\phi}(x_{1: T} \mid x_{0})}\left[log \frac{P(x_{0:T})}{Q_{\phi}(x_{1: T} \mid x_{0})} \right] \end{aligned}$

3.ELBO继续推导

$\begin{aligned} ELBO &= \mathbb{E}_{Q_{\phi}(x_{1: T} \mid x_{0})}\left[log \frac{P(x_{0:T})}{Q_{\phi}(x_{1: T} \mid x_{0})} \right] \\ &=\underbrace{\mathbb{E}_{Q_{\phi}(x_{1} \mid x_{0})}\left[\log P_{\theta}\left(x_{0} \mid x_{1}\right)\right]}_{\text {reconstruction term }} -\underbrace{D_{\mathrm{KL}}\left(Q_{\phi}\left(x_{T} \mid x_{0}\right) \| P\left(x_{T}\right)\right)}_{\text {prior matching term }} \\ &-\sum_{t=2}^{T} \underbrace{\mathbb{E}_{Q_{\phi}(x_{t} \mid x_{0})}\left[D_{\mathrm{KL}}\left(Q_{\phi}\left(x_{t-1} \mid x_{t}, x_{0}\right) \| P_{\theta}\left(x_{t-1} \mid x_{t}\right)\right)\right]}_{\text {denoising matching term }} \end{aligned}$
$\ term$ 和VAE一样，是衡量从 $x_1$ 到 $x_0$ 的重建程度。

$\ matching \ term$ 由于 $Q_{\phi}\left(x_{T} \mid x_{0}\right)$ 不像VAE一样需要神经网络去拟合，而是人工预设的加噪步骤，按照人工设定最终一定会趋向于标准正态分布，所以该项没有可学习参数，所以该项可以忽略。

$\ matching \ term$ 这一项是最重要的一项，也是和VAE的区别，DDPM网络的学习主要也是靠这一项。

4. $\ term$

$\ term$ 是将最后一步的加噪图像 $x_1$ 生成去噪图像 $x_0$ 的极大似然估计，为了生成更好的图像，我们需要对每个像素都运用极大似然估计，使得图像上每个像素值都满足离散的对数似然。

为了达到这个目的，将逆扩散过程中的最后从 $x_1$ 到 $x_0$ 的转换设置为独立的离散计算方式。即在最后一个转换过程在给定 $x_1$ 下得到图像 $x_0$ 满足对数似然，假设像素与像素之间是相互独立的：
$P_{\theta}\left(x_{0} \mid x_{1}\right)=\prod_{i=1}^{D} P_{\theta}\left(x_{0}^{i} \mid x_{1}^{i}\right)$
$D$ 代表 $x$ 的维度，上标 $i$ 表示图像中的一个坐标位置。现在的目标是确定给定像素的值可能性有多大，也就是想要知道对应时间步 $t = 1$ 下噪声图像 $x$ 中相应像素值的分布：
$\mathcal{N}\left(x ; \mu_{\theta}^{i}\left(x_{1}, 1\right), \sigma_{1}^{2}\right)$
其中 $t = 1$ 的像素分布来自多元高斯分布，其对角协方差矩阵允许我们将分布拆分为单变量高斯的乘积：
$\mathcal{N}\left(x ; \mu_{\theta}\left(x_{1}, 1\right), \sigma_{1}^{2} \mathbb{I}\right)=\prod_{i=1}^{D} \mathcal{N}\left(x ; \mu_{\theta}^{i}\left(x_{1}, 1\right), \sigma_{1}^{2}\right)$
现在假设图像已经从0-255的数值之间，经过归一化在[-1,1]的范围内。在 t=0 时给定每个像素的像素值，最后一个时间步 t=1 的转换概率分布 $p_{\theta}\left(x_{0} \mid x_{1}\right)$ 的值就是每个像素值的乘积。所以：
$\begin{aligned} P_{\theta}\left(\mathbf{x}_{0} \mid \mathbf{x}_{1}\right) & =\prod_{i=1}^{D} \int_{\delta_{-}\left(x_{0}^{i}\right)}^{\delta_{+}\left(x_{0}^{i}\right)} \mathcal{N}\left(x ; \mu_{\theta}^{i}\left(\mathbf{x}_{1}, 1\right), \sigma_{1}^{2}\right) d x \\ \delta_{+}(x) & =\left\{\begin{array}{ll} \infty & \text { if } x=1 \\ x+\frac{1}{255} & \text { if } x<1 \end{array} \quad \delta_{-}(x)=\left\{\begin{array}{ll} -\infty & \text { if } x=-1 \\ x-\frac{1}{255} & \text { if } x>-1 \end{array}\right.\right. \end{aligned}$
这个公式来自原论文，这里解析一下它的含义。就是我们要将最后一步的加噪图像 $x_1$ 拟合去燥图像 $x_0$ ，把图像的每一个像素点都设为一个高斯分布，一共 $D$ 个像素点。而 $x_0$ 每个像素点原本的取值范围为 $\{0,1, \ldots, 255\}$ ，经过归一化映射到了 $[- 1, 1]$ 范围内。

现在我们把单独取出一个 $x_1$ 上的像素点 $x_1^i$ ，它服从分布 $\mathcal{N}\left(x ; \mu_{\theta}^{i}\left(x_{1}, 1\right), \sigma_{1}^{2}\right)$ ，需要拟合的目标为 $x_0$ 上的对应位置像素点 $x_0^i$ ，而 $x_0^i$ 的取值范围由原本的离散空间 $\{0,1, \ldots, 255\}$ 映射到了空间 $[- 1, 1]$ ， $\{-1,-1 + \frac{2}{255}, ...., 1- \frac{2}{255}, 1 \}$ ，然后再映射到连续空间 $(-\infty, -1+\frac{1}{255})$ ， $(-1+\frac{1}{255}, -1+\frac{3}{255})$
所以每个原本的离散值在连续空间中对应一个区间，而区间映射的公式就是：
$\begin{aligned} \delta_{+}(x) & =\left\{\begin{array}{ll} \infty & \text { if } x=1 \\ x+\frac{1}{255} & \text { if } x<1 \end{array} \quad \delta_{-}(x)=\left\{\begin{array}{ll} -\infty & \text { if } x=-1 \\ x-\frac{1}{255} & \text { if } x>-1 \end{array}\right.\right. \end{aligned}$

5. $\ matching \ term$

$\sum_{t=2}^{T} \underbrace{\mathbb{E}_{Q_{\phi}(x_{t} \mid x_{0})}\left[D_{\mathrm{KL}}\left(Q_{\phi}\left(x_{t-1} \mid x_{t}, x_{0}\right) \| P_{\theta}\left(x_{t-1} \mid x_{t}\right)\right)\right]}_{\text {denoising matching term }}$

$Q_{\phi}\left(x_{t-1} \mid x_{t}, x_{0}\right)$ 代表ground truth，即给定 $x_t$ 和 $x_0$ 后 $x_{t-1}$ 的真实分布。因为加噪过程是全程人工参与的，透明的，直观一些就是我们是知道 $x_{t-1}$ 到 $x_{t}$ 这一步加了什么噪音的得到了具体分布，所以我们就可以知道从 $x_t$ 到 $x_{t-1}$ 这一步需要减去哪些噪音，所以 $Q_{\phi}\left(x_{t-1} \mid x_{t}, x_{0}\right)$ 对我们来说就是ground truth。

$P_{\theta}\left(x_{t-1} \mid x_{t}\right)$ 是我们需要学习的网络（原论文中就是那个UNet）拟合的去噪过程，需要受到ground truth的监督。

由于是个累加，所以我们单独拿出第 $t$ 步来讨论：
$D_{\mathrm{KL}}\left(Q_{\phi}\left(x_{t-1} \mid x_{t}, x_{0}\right) \| P_{\theta}\left(x_{t-1} \mid x_{t}\right)\right)$
接下来的目标就是求出ground truth $Q_{\phi}\left(x_{t-1} \mid x_{t}, x_{0}\right)$ 的表达式。