DDPM交叉熵损失函数推导

最新推荐文章于 2024-04-06 20:17:01 发布

champion_H

最新推荐文章于 2024-04-06 20:17:01 发布

阅读量2.1k

点赞数 7

文章标签：概率论人工智能

本文链接：https://blog.csdn.net/zhL816/article/details/127990198

版权

$\rm KL$ 散度

由于以下推导需要用到 $\rm KL$ 散度，这里先简单介绍一下。
$\rm KL$ 散度一般用于度量两个概率分布函数之间的“距离”，其定义如下：
$KL\big[P(X)||Q(X)\big]=\sum_{x\in X}\Big[P(x)\log\frac{P(x)}{Q(x)}\Big]=E_{x\sim P(x)}\Big[\log\frac{P(x)}{Q(x)}\Big]$
这里 $P (X)$ 和 $Q (X)$ 是两个概率分布函数，可以看到对于离散型随机变量， $\rm KL$ 散度对 $x$ 进行求和；对于连续型随机变量， $\rm KL$ 散度对 $x$ 进行积分(期望)。
高斯分布的 $\rm KL$ 散度
对于两个单一变量的高斯分布 $p\sim\mathcal{N}(\mu_1, \sigma_1^2)$ 和 $q\sim\mathcal{N}(\mu_2,\sigma_2^2)$ 而言，它们的KL散度为
$KL(p,q)=\log\frac{\sigma_2}{\sigma_1}+\frac{\sigma_1^2+(\mu_1-\mu_2)^2}{2\sigma_2^2}-\frac{1}{2}$

似然函数

下方是论文中给出的后向过程 $\mathbf{x}_{t-1}$ 的分布，其方差为常数。
$p_{\theta}(\mathbf{x}_{0:T})=p(\mathbf{x}_T)\prod_{t=1}^T p_{\theta}(\mathbf{x}_{t-1}\mid\mathbf{x}_t),\qquad p_{\theta}(\mathbf{x}_{t-1}\mid\mathbf{x}_t)=\mathcal{N}(\mathbf{x}_{t-1};\mu_{\theta}(\mathbf{x}_t,t),\sum_{\theta}(\mathbf{x}_t,t))$
推出扩散模型目标数据分布的似然函数，推出似然函数后才能优化模型。 $p_{\theta}(\mathbf{x}_0)$ 为目标数据分布，其对数似然下界越大，那么对数似然越大。为了方便推导，这里用其负对数似然 $-\log p_{\theta}(\mathbf{x}_0)$ 推导，其上界越小，负对数似然越小，相对应其对数似然越大。
$\begin{aligned} -\log p_{\theta}(\mathbf{x}_0) & \leq -\log p_{\theta}(\mathbf{x}_0)+D_{KL}(q(\mathbf{x}_{1:T}\mid\mathbf{x}_0)\parallel p_{\theta}(\mathbf{x}_{1:T}\mid\mathbf{x}_0)) \qquad(1)\\ & = -\log p_{\theta}(\mathbf{x}_0)+\Bbb{E}_{\mathbf{x}_{1:T}\sim q(\mathbf{x}_{1:T}\mid\mathbf{x}_0)}\Big[\log\frac{q(\mathbf{x}_{1:T}\mid\mathbf{x}_0)}{p_{\theta}(\mathbf{x}_{0:T})/p_{\theta}(\mathbf{x}_0)}\Big] \quad(2)\\ & = -\log p_{\theta}(\mathbf{x}_0)+\Bbb{E}_q\Big[\log\frac{q(\mathbf{x}_{1:T}\mid\mathbf{x}_0)}{p_{\theta}(\mathbf{x}_{0:T})}+\log p_{\theta}(\mathbf{x}_0)\Big]\qquad(3)\\ & = \Bbb{E}_{q(\mathbf{x}_{1:T}\mid\mathbf{\mathbf{x}_0})}\Big[\log\frac{q(\mathbf{x}_{1:T}\mid\mathbf{x}_0)}{p_{\theta}(\mathbf{x}_{0:T})}\Big]\qquad(4) \end{aligned}$

公式推导

$(1)$ : 不等式右边加上一个 $\rm KL$ 散度，由于 $\rm KL$ 散度始终大于等于0，所以不等号成立。也即不等式右边是左边的上界，我们只需要优化右边的式子使其达到最小，那么等式左边的对数似然就达到最小。
$(1)\rightarrow(2)$ : 这一步是将 $\rm KL$ 散度展开，可以见上方 $\rm KL$ 散度的定义，定义中 $P (x)$ 相当于 $q(\mathbf{x}_{1:T}\mid\mathbf{x}_0)$ ， $Q (x)$ 相当于 $p_{\theta}(\mathbf{x}_{1:T}\mid\mathbf{x}_0)$ 。将 $Q (x)$ 按照条件概率公式展开： $p_{\theta}(\mathbf{x}_{1:T}\mid\mathbf{x}_0)=p_{\theta}(\mathbf{x}_{1:T},\mathbf{x}_0)/p_{\theta}(\mathbf{x}_0)=p_{\theta}(\mathbf{x}_{0:T})/p_{\theta}(\mathbf{x}_0)$ ，这样就得到了第 $(2)$ 步的式子。
$(2)\rightarrow(3)$ : 将 $\log$ 进行展开即可。
$(3)\rightarrow(4)$ : 由于该期望是针对分布 $q$ 的，则 $\log p_{\theta}(\mathbf{x}_0)$ 相对于 $q$ 就是常数。所以 $\Bbb{E}_q\big[\log p_{\theta}(\mathbf{x}_0)\big]=\log p_{\theta}(\mathbf{x}_0)$ ，然后和前面的 $-\log p_{\theta}(\mathbf{x}_0)$ 约去，就得到了式子 $(4)$ 。

推导结束

然后我们将不等式左边的 $-\log p_{\theta}(\mathbf{x}_0)$ 套上一个关于分布 $q(\mathbf{x}_0)$ 的期望，得到 $-\Bbb{E}_{q(\mathbf{x}_0)}\log p_{\theta}(\mathbf{x}_0)$ (交叉熵，也即loss)；相应的，不等式右边也要加上一个 $\mathbf{x}_0$ ，则由 $\Bbb{E}_{q(\mathbf{x}_{1:T}\mid\mathbf{x}_0)}$ 变为 $\Bbb{E}_{q(\mathbf{x}_{0:T})}$ 。如果我们想最小化loss，也就是最小化 $\Bbb{E}_{q(\mathbf{x}_{0:T})}$ 。
$\rm Let\text{ }\it L_{\rm VLB} \it = \Bbb{E}_{q(\mathbf{x}_{0:T})}\Big[\log\frac{q(\mathbf{x}_{1:T}\mid\mathbf{x}_0)}{p_{\theta}(\mathbf{x}_{0:T})}\Big]\geq -\Bbb{E}_{q(\mathbf{x}_0)}\log p_{\theta}(\mathbf{x}_0)$

化简loss上界

$\begin{aligned} L_{\rm VLB} \it & = \Bbb{E}_{q(\mathbf{x}_{0:T})}\Big[\log\frac{q(\mathbf{x}_{1:T}\mid\mathbf{x}_0)}{p_{\theta}(\mathbf{x}_{0:T})}\Big] \qquad (1)\\ & = \Bbb{E}\Big[\log\frac{\prod_{t=1}^Tq(\mathbf{x}_t\mid\mathbf{x}_{t-1})}{p_{\theta}(\mathbf{x}_T)\prod_{t=1}^Tp_{\theta}(\mathbf{x}_{t-1}\mid\mathbf{x}_t)}\Big] \qquad(2)\\ & = \Bbb{E}_q \Big[-\log p_{\theta}(\mathbf{x}_T) + \sum_{t=1}^T \log \frac{q(\mathbf{x}_t\mid\mathbf{x}_{t-1})}{p_{\theta}(\mathbf{x}_{t-1}\mid\mathbf{x}_t)} \Big] \qquad(3)\\ & = \Bbb{E}_q \Big[-\log p_{\theta}(\mathbf{x}_T) + \sum_{t=2}^T \log \frac{q(\mathbf{x}_t\mid\mathbf{x}_{t-1})}{p_{\theta}(\mathbf{x}_{t-1}\mid\mathbf{x}_t)} + \log\frac{q(\mathbf{x}_1\mid\mathbf{x}_0)}{p_{\theta}(\mathbf{x}_0\mid\mathbf{x}_1)} \Big] \qquad(4)\\ & = \Bbb{E}_q \Big[-\log p_{\theta}(\mathbf{x}_T) + \sum_{t=2}^T \log \Big(\frac{q(\mathbf{x}_{t-1}\mid\mathbf{x}_{t},\mathbf{x}_0)}{p_{\theta}(\mathbf{x}_{t-1}\mid\mathbf{x}_t) } \cdot \frac{q(\mathbf{x}_t\mid\mathbf{x}_0)}{q(\mathbf{x}_{t-1}\mid\mathbf{x}_0)} \Big) + \log\frac{q(\mathbf{x}_1\mid\mathbf{x}_0)}{p_{\theta}(\mathbf{x}_0\mid\mathbf{x}_1)} \Big] \qquad(5)\\ & = \Bbb{E}_q \Big[-\log p_{\theta}(\mathbf{x}_T) + \sum_{t=2}^T \log \frac{q(\mathbf{x}_{t-1}\mid\mathbf{x}_{t},\mathbf{x}_0)}{p_{\theta}(\mathbf{x}_{t-1}\mid\mathbf{x}_t) } + \sum_{t=2}^T \log \frac{q(\mathbf{x}_t\mid\mathbf{x}_0)}{q(\mathbf{x}_{t-1}\mid\mathbf{x}_0)}+\log\frac{q(\mathbf{x}_1\mid\mathbf{x}_0)}{p_{\theta}(\mathbf{x}_0\mid\mathbf{x}_1)} \Big] \qquad(6)\\ & = \Bbb{E}_q \Big[-\log p_{\theta}(\mathbf{x}_T) + \sum_{t=2}^T \log \frac{q(\mathbf{x}_{t-1}\mid\mathbf{x}_{t},\mathbf{x}_0)}{p_{\theta}(\mathbf{x}_{t-1}\mid\mathbf{x}_t) } + \log \frac{q(\mathbf{x}_T\mid\mathbf{x}_0)}{q(\mathbf{x}_{1}\mid\mathbf{x}_0)}+\log\frac{q(\mathbf{x}_1\mid\mathbf{x}_0)}{p_{\theta}(\mathbf{x}_0\mid\mathbf{x}_1)} \Big] \qquad(7)\\ & = \Bbb{E}_q \Big[\log \frac{q(\mathbf{x}_T\mid\mathbf{x}_0)}{p_{\theta}(\mathbf{x}_T)} + \sum_{t=2}^T \log \frac{q(\mathbf{x}_{t-1}\mid\mathbf{x}_{t},\mathbf{x}_0)}{p_{\theta}(\mathbf{x}_{t-1}\mid\mathbf{x}_t) } - \log p_{\theta}(\mathbf{x}_0\mid\mathbf{x}_1) \Big] \qquad(8)\\ & = \Bbb{E}_q[\underbrace{D_{\rm KL}(q(\mathbf{x}_T\mid\mathbf{x}_0)\parallel p_{\theta}(\mathbf{x}_T))}_{L_T}+\sum_{t=2}^T\underbrace{D_{\rm KL}(q(\mathbf{x}_{t-1}\mid\mathbf{x}_t,\mathbf{x}_0)\parallel p_{\theta}(\mathbf{x}_{t-1}\mid\mathbf{x}_t))}_{L_{t-1}}-\underbrace{\log p_{\theta}(\mathbf{x}_0\mid\mathbf{x}_1)}_{L_0}]\qquad(9) \end{aligned}$

公式推导

$(1)\rightarrow(2)$ : 将条件概率展开。由于 $q(\mathbf{x}_{1:T}\mid\mathbf{x}_0)$ 是扩散过程，是从 $\mathbf{x}_0$ 逐步推导 $\mathbf{x}_T$ 得到过程，其符合马尔科夫假设，故 $q(\mathbf{x}_{1:T}\mid\mathbf{x}_0)=q(\mathbf{x}_1\mid\mathbf{x}_0)\cdot q(\mathbf{x}_2\mid\mathbf{x}_1)\cdot ... \cdot q(\mathbf{x}_T\mid\mathbf{x}_{T-1})=\prod_{t=1}^Tq(\mathbf{x}_t\mid\mathbf{x}_{t-1})$ ；对于 $p_{\theta}(\mathbf{x}_{0:T})$ ，我们先将其根据条件概率转换为 $p_{\theta}(\mathbf{x}_T)p_{\theta}(\mathbf{x}_{0:T-1}\mid\mathbf{x}_T)$ ，然后将后面那一项和 $q$ 一样，展开即可。
$(2)\rightarrow(3)$ : 将 $\log$ 进行展开，连乘展开后转换为求和。
$(3)\rightarrow(4)$ : 将 $\log\frac{q(\mathbf{x}_1\mid\mathbf{x}_0)}{p_{\theta}(\mathbf{x}_0\mid\mathbf{x}_1)}$ 单独拿出来计算。
$(4)\rightarrow(5)$ : 回忆一下，之前在讲逆扩散过程的时候我们得到了这样一个式子 $q(\mathbf{x}_{t-1}\mid\mathbf{x}_{t},\mathbf{x}_0)=q(\mathbf{x}_{t}\mid\mathbf{x}_{t-1})\frac{q(\mathbf{x}_{t-1}\mid\mathbf{x}_0)}{q(\mathbf{x}_{t}\mid\mathbf{x}_0)}$ ，通过这个式子，我们就能得到 $q(\mathbf{x}_t\mid\mathbf{x}_{t-1})$ 的表达式，然后替换即可。
$(5)\rightarrow(6)$ : 将 $\log$ 进行展开。
$(6)\rightarrow(7)$ : $\sum_{t=2}^T\log\frac{q(\mathbf{x}_t\mid\mathbf{x}_0)}{q(\mathbf{x}_{t-1}\mid\mathbf{x}_0)}=\log\Big(\frac{q(\mathbf{x}_2\mid\mathbf{x}_0)}{q(\mathbf{x}_1\mid\mathbf{x}_0)}\cdot\frac{q(\mathbf{x}_3\mid\mathbf{x}_0)}{q(\mathbf{x}_2\mid\mathbf{x}_0)}\cdot...\cdot\frac{q(\mathbf{x}_T\mid\mathbf{x}_0)}{q(\mathbf{x}_T-1\mid\mathbf{x}_0)}\Big)=\log\frac{q(\mathbf{x}_T\mid\mathbf{x}_0)}{q(\mathbf{x}_1\mid\mathbf{x}_0)}$
$(7)\rightarrow(8)$ : $\log\frac{q(\mathbf{x}_T\mid\mathbf{x}_0)}{q(\mathbf{x}_1\mid\mathbf{x}_0)} + \log\frac{q(\mathbf{x}_1\mid\mathbf{x}_0)}{p_{\theta}(\mathbf{x}_0\mid\mathbf{x}_1)}=\log q(\mathbf{x}_T\mid\mathbf{x}_0)-\log p_{\theta}(\mathbf{x}_0\mid\mathbf{x}_1)$ ，然后将 $\log q(\mathbf{x}_T\mid\mathbf{x}_0)$ 和 $-\log p_{\theta}(\mathbf{x}_T)$ 合并成 $\log \frac{q(\mathbf{x}_T\mid\mathbf{x}_0)}{p_{\theta}(\mathbf{x}_T)}$
$(8)\rightarrow(9)$ : 对于 $L_T$ ， $q(\mathbf{x}_T\mid\mathbf{x}_0)$ 和 $p_{\theta}(\mathbf{x}_T)$ 都是不含参的，前者 $q$ 分布是由 $\beta_t$ 求出的，不含有任何参数；后者是一个各向同性的高斯分布。故 $L_T$ 是不含参的，在优化时可以将其舍弃。对于 $L_{t-1}$ ，参见 $\rm KL$ 散度定义，可以将其表示为 $\rm KL$ 散度，如果这里我们将 $t$ 取1，其转化为 $\log\frac{q(\mathbf{x}_0\mid\mathbf{x}_1,\mathbf{x}_0)}{p_{\theta}(\mathbf{x}_0\mid\mathbf{x}_1)}=\log\frac{1}{p_{\theta}(\mathbf{x}_0\mid\mathbf{x}_1)}$ 。故当 $t$ 为1时，得到的结果就是 $L_{t-1}$ 后面那一项 $L_0$ ，故我们可以将其合并。故我们只需要优化 $L_{t-1}$ 即可。

推导结束

在论文中，作者将分布 $p_{\theta}(\mathbf{x}_{t-1}\mid\mathbf{x}_t)$ 的方差看作与 $\beta$ 相关的常数，那么可训练的参数就存在于其均值当中。在 $L_{t-1}$ 中， $q(\mathbf{x}_{t-1}\mid\mathbf{x}_t,\mathbf{x}_0)$ 是一个高斯分布，其方差和均值我们已经在之前后向过程推导中求出，均值为 $\tilde{\mu}_t(\mathbf{x}_t)$ ，方差为和 $\beta_t$ 有关的常数。而 $p_{\theta}(\mathbf{x}_{t-1}\mid\mathbf{x}_t)$ 也是我们假设的高斯分布，它的方差也是常数，均值为 $\mu_{\theta}(\mathbf{x}_t,t)$ ，所以参数只在 $\mu_{\theta}$ 当中。对于这两个高斯分布，我们可以运用高斯分布的 $\rm KL$ 散度公式，其中的方差我们可以不考虑。则我们可以得到如下的式子：
$L_{t-1}=\Bbb{E}_q \Big[\frac{1}{2\sigma_t^2} \lVert \tilde{\mu}_t(\mathbf{x}_t,\mathbf{x}_0)-\mu_{\theta}(\mathbf{x}_t,t)\rVert^2 \Big]+C$

由这个式子，我们优化目标就很明确了，我们要优化 $\mu_{\theta}$ ，让其无线逼近于 $\tilde{\mu}_t$ ，这样才能使 $L_{t-1}$ 最小。首先我们将 $\tilde{\mu}_t(\mathbf{x}_t)$ 代入上述的式子中，原式中的 $\tilde{z}_t$ 用 $\epsilon$ 来表示， $\mathbf{x}_t$ 用 $\mathbf{x}_t(\mathbf{x}_0,\epsilon)$ 替换，就能得到下方第二个等号的式子。
$\begin{aligned} L_{t-1}-C & = \Bbb{E}_{\mathbf{x}_0,\epsilon} \Bigg[\frac{1}{2\sigma_t^2}\Big\lVert\tilde{\mu}_t\Big(\mathbf{x}_t(\mathbf{x}_0,\epsilon),\frac{1}{\sqrt{\bar{\alpha}_t}}(\mathbf{x}_t(\mathbf{x}_0,\epsilon)-\sqrt{1-\bar{\alpha}_t}\epsilon)\Big)-\mu_{\theta}(\mathbf{x}_t(\mathbf{x}_0,\epsilon),t)\Big\rVert^2 \Bigg] \\ & = \Bbb{E}_{\mathbf{x}_0,\epsilon} \Bigg[\frac{1}{2\sigma_t^2}\Big\lVert\frac{1}{\sqrt{\alpha}_t}\Big(\mathbf{x}_t(\mathbf{x}_0,\epsilon)-\frac{\beta_t}{\sqrt{1-\bar{\alpha}_t}}\epsilon \Big)-\mu_{\theta}(\mathbf{x}_t(\mathbf{x}_0,\epsilon),t)\Big\rVert^2 \Bigg] \end{aligned}$
这里我们的 $\mathbf{x}_t$ 是已知的，那么为了使 $L_{t-1}$ 最小，我们可以将 $\mu_{\theta}(\mathbf{x}_t,t)$ 表示为 $\tilde{\mu}_t$ 的一个波动，其中的 $\epsilon$ 是未知的，则我们可以训练一个网络来预测 $\epsilon$ 。
$\mu_{\theta}(\mathbf{x}_t,t)=\tilde{\mu}_t\Big(\mathbf{x}_t,\frac{1}{\sqrt{\bar{\alpha}_t}}(\mathbf{\mathbf{x}_t-\sqrt{1-\bar{\alpha}_t}\epsilon_{\theta}(\mathbf{x}_t)}) \Big)=\frac{1}{\sqrt{\alpha_t}}\Big(\mathbf{x}_t-\frac{\beta_t}{\sqrt{1-\bar{\alpha}_t}}\epsilon_{\theta}(\mathbf{x}_t,t) \Big)$
于是 $L_{t-1}$ 可以简化为如下形式
$\Bbb{E}_{\mathbf{x_0},\epsilon}\Big[ \frac{\beta_t^2}{2\sigma_t^2\alpha_t(1-\bar{\alpha}_t)}\lVert \epsilon-\epsilon_{\theta}(\sqrt{\bar{\alpha}_t}\mathbf{x}_0+\sqrt{1-\bar{\alpha}_t}\epsilon,t)\rVert^2\Big]$
作者又发现，将系数丢掉，训练更加稳定质量更好，于是就得到了下方的 $L_{\rm simple}$
$L_{\rm simple}(\theta):=\Bbb{E}_{t,\mathbf{x_0},\epsilon}\Big[ \lVert \epsilon-\epsilon_{\theta}(\sqrt{\bar{\alpha}_t}\mathbf{x}_0+\sqrt{1-\bar{\alpha}_t}\epsilon,t)\rVert^2\Big]$