去噪扩散概率模型DDPM

Namilon

已于 2023-09-25 14:16:12 修改

阅读量485

点赞数 1

文章标签：算法机器学习

于 2023-09-18 20:25:39 首次发布

本文链接：https://blog.csdn.net/weixin_48029667/article/details/132990309

版权

正态分布和高斯噪声

如，对于标准正态分布X~N(0,1)，对于x∉(-1,1)，我们称这些随机变量为高斯噪声。

扩散模型概要

扩散现象：物质粒子从高浓度区域向低浓度区域移动的过程。

如果向一张图片逐渐添加高斯噪声，图片会变得越来越模糊；也可以通过逆向过程从噪声中生成图片。

前向过程

对于一张RGB图片，每个像素由R、G、B三个通道表示，每个通道的取值范围为[0,255]。

归一化：对于每个通道的取值，将其取值范围映射到[-1,1]。那么后续添加的高斯噪声的取值就在该区间之外。

随机采样：通过随机采样生成一张同样大小的噪声图片，通过随机采样后，每个通道的取值遵从标准正态分布。

加噪：目前，我们有两张图片，分别是原图片和噪声图片。我们将两张图片相同像素的通道取值混合，就可以得到一张加噪的图片。

使用上面的公式就可以计算出混合之后的图片像素通道值。

其中：ε为噪声图片的某个像素的某通道值，x为原图片相同位置的通道值，β∈[0,1]。

我们注意到，ε和x前的系数，sqrt(β)和sqrt(1-β)，它们的平方和恒等于1。

当β的值增加时，x前的系数1-β的值就会减少，也就是说，β的值越大，原图的像素通道值所占的比例就越小，混合后生成的图片就越模糊。

对于原图G0，逐渐加噪后，可以得到以下公式：

为了方便后续的推导，我们做以下定义：

先考虑两个状态，x(t)和x(t-2)，若由状态x(t-2)直接得到x(t)的值，由以下公式：

其中ε(t-1)和ε(t)为两个独立的随机变量，且都服从正态分布N(0,1)。而这两个随机变量的系数都为常数，所以：

服从

又根据

可知

服从

原式变换为：

所以我们可以直接得到由图G0加噪成为Gt的结果：

反向过程

贝叶斯公式：

对于两个事件A和B，若A事件先于B事件发生，则对于B事件发生的情况下A事件发生的概率的计算公式如上。其中P(A)称为先验概率，P(A|B)是在B事件发生后对P(A)的修正，称为后验概率。P(B)称为证据，P(B|A)称为似然。

在反向过程中，x(t)到x(t-1)是一个随机过程，我们需要求出由x(t)到x(t-1)的概率。

所以， $P\left ( x_{t-1} \right|x_{t} )=\frac{P\left ( x_{t} \right|x_{t-1} )P\left ( x_{t-1} \right )}{P\left ( x_{t} \right )}$ ，若要求出该概率，只需求出等式右边的三个概率。

首先，对于 $P\left ( x_{t-1} \right )$ 和 $P\left ( x_{t} \right )$ ，我们并不清楚其概率，但通过前向加噪的过程，我们知道 $P\left ( x_{t-1} |x_{0}\right )$ 和 $P\left ( x_{t} |x_{0}\right )$ 的概率，所以上式等价于：

$P\left ( x_{t-1}|x_{t} ,x_{0}\right )=\frac{P\left ( x_{t}|x_{t-1} ,x_{0}\right )P\left ( x_{t-1}|x_{0} \right )}{P\left ( x_{t}|x_{0} \right )}$ ，即 $P\left ( x_{t-1}|x_{t} \right )=\frac{P\left ( x_{t}|x_{t-1} \right )P\left ( x_{t-1}|x_{0} \right )}{P\left ( x_{t}|x_{0} \right )}$