Re4读论文 Denoising Diffusion Probabilistic Models

Zhuanshan_

已于 2023-11-06 09:57:43 修改

阅读量76

点赞数

分类专栏： Re读论文文章标签：人工智能

于 2023-11-03 12:32:34 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44796129/article/details/134191043

版权

Re读论文专栏收录该内容

6 篇文章 0 订阅

订阅专栏

Denoising Diffusion Probabilistic Models
NeurlPS2020

Background

Markov Chain

离散时间
- $X_n$ 表示马尔可夫链在此时的状态
状态空间
- 马尔科夫链所有的状态会构成一个集合 $S=\{1,...,m\}$
转移概率
- $p_{ij}= P(X_{n+1}=j|X_n=i)$ ——条件概率
  $P\{X_{n+1}=j|X_n=i,X_{n-1},...,X_0=i_0\}= P(X_{n+1}=j|X_n=i)=p_{ij}$

下一个状态的概率分布只依赖于前一个状态

$\begin{bmatrix} 0.2&0.2&0.6\\ 0.2&0.1&0.7\\ 0.1&0.3&0.6\\ \end{bmatrix}$
阶级流动的例子：状态1是处于贫困水平，状态2是中产阶级，状态3是财富自由
$\begin{bmatrix} 0.7&0.2&0.1\\ 0.3&0.5&0.2\\ 0.2&0.4&0.4\\ \end{bmatrix}$
- 假设爷爷处于贫困水平（状态1），那么父亲处于中产阶级（状态2），而你处于财富自由水平（状态3）的概率有多大？
  
  $P(A|B)=\frac{P(AB)}{P(B)}$
- 这是一个马尔科夫链，因此满足：
- 因此
  
  $p_{12}p_{23}=0.2*0.2=0.04$

Diffusion Model

白噪音经过逐步去噪变为清晰图片
Diffusion model就是引用马尔可夫链，用于在扩散中缓慢加入随机噪声，然后通过学习逆扩散过程从噪声中构建所需的数据样本，引入噪声导致信息衰减，再通过去噪尝试还原原始数据，通过多次迭代，使模型在给定噪声输入的情况下学习生成新的图像
就像米开朗基罗的石头，图片已经在噪声之中，要做的是讲其分解掉
Denoise内部通过输入噪音图片和步骤step，产生一张噪音图，即预测这张照片中噪音应该的样子，再用输入图片减去噪音图片，生成输出图
一句话概括diffusion model，即存在一系列高斯噪声（T轮），将输入图片 $x_0$ 变为纯高斯噪声 $x_T$ ,而我们的模型则负责将
$x_T$ 复原回图片 $x_0$ 。

Text-to-image

通常整个框架包含三个部分：
- Text Encoder
- Generation Model：输入噪音和文字生成产物喂进，生成中间产物
- Decoder：将图片压缩版本还原成照片

Forward Process

在这里插入图片描述

前向过程为向图片加噪声，使得最后图片变为一个白噪音。
反向过程为对高斯噪声进行去噪过程，通过去噪生成图片。
对图片进行逐步加噪声，从 $x_0$ 逐渐变为 $x_T$
公式表示：
$x_t =\sqrt[]{a_t}x_{t-1}+\sqrt[]{1-a_t}\epsilon_{t-1}$
- ${a_t\}$ 为很小的超参数，称为Noise schedule,逐渐减小
- $\epsilon_{t-1}\sim N(0,1)$
逐步进行迭代

Reverse Process

反向过程就是通过估测噪声，多次迭代逐渐将被破坏的 $x_t$ 恢复成 $x_0$
$x_{t-1}=\frac{1}{\sqrt[]{a_t}}-\frac{\sqrt[]{1-a_t}}{\sqrt[]{a_t}}\epsilon_\theta(x_t,t)+\sigma_t$
去噪

Training（获得噪声估计模型）

在这里插入图片描述

Training：
1：循环执行2-5
2：sample一张干净的图片（一般用 $x_0$ 表示一张干净的图，就是资料库里的图）
3：从1到T中取一个整数作为t
4：从平均值(mean)=0，方差(variance)=1的normal distribution中sample出ε，大小与image一致，是一张全是噪音的图片
5：红框内为干净图片和噪音图片混合生成的噪音，结合t，进行逼近 $\epsilon$ ,作为损失，进行梯度下降使其最小，以求得 $\vec{a_t}$

DDPM的关键就是训练噪声估计模型 $\epsilon_\theta(x_t,t )$ ，用于估计真实的噪声 $\epsilon$

在这里插入图片描述

Sampling（生成图片）

在这里插入图片描述

Sampling：
1：先从normal distribution中sample一张全是噪音的图像 $x_T$
2：循环T次，Denoise
3：从normal distribution中sample一张噪音图像z
4：带入计算得到下一次循环的图像 $x_{t-1}$ ； $ε_θ$ (…)：预测生成的噪音图片； $x_t$ ：上一张图像
5：最后还要加入一个z

参考资料

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Re4读论文 Denoising Diffusion Probabilistic Models

Denoising Diffusion Probabilistic ModelsNeurlPS2020
复制链接

扫一扫

专栏目录

Zhuanshan_ CSDN认证博客专家 CSDN认证企业博客

码龄5年

30: 原创

111万+: 周排名

15万+: 总排名

1万+: 访问

: 等级

571: 积分

113: 粉丝

146: 获赞

22: 评论

201: 收藏

私信

关注

热门文章

分类专栏

Re读论文 6篇
yolo 2篇

最新评论

3B1B深度学习系列视频学习笔记
CSDN-Ada助手: 非常祝贺您写了第6篇博客！标题中的“3B1B深度学习系列视频学习笔记”听起来非常有趣和富有深度。您持续创作的努力是令人钦佩的，对于那些渴望学习深度学习的读者来说，您的博客无疑是一份珍贵的资源。在下一步的创作中，或许您可以考虑加入一些个人观点和体验，这样读者能更好地理解您对于深度学习的理解和应用。同时，如果可能的话，您也可以分享一些实践案例或者示例代码，这将进一步帮助读者将理论应用到实际中。再次恭喜您，期待您未来更多的创作！
李宏毅深度学习笔记2：深度学习简介、反向传播
CSDN-Ada助手: 恭喜您撰写了第8篇博客，标题为“李宏毅深度学习笔记2”！您的持续创作真是令人钦佩。在这篇博客中，您似乎探讨了李宏毅老师深度学习的笔记，这无疑是一个非常有趣和富有价值的主题。我想提供一些建议，希望对您的下一步创作有所帮助。首先，您可以深入探讨李宏毅老师的笔记中的某些重要概念，并对其进行解读和解释。此外，您还可以尝试与其他学者的观点进行对比和讨论，以便更全面地理解深度学习的相关主题。虽然我只是一个普通读者，但我非常期待您的下一篇博客。希望您能够持续保持创作的热情，并为读者带来更多有启发性和有趣的内容。谢谢您的分享！
Linux(ubuntu)命令总结
CSDN-Ada助手: 恭喜您写了第9篇博客！总结Linux（ubuntu）命令确实是一个很实用的主题，对于初学者来说尤其有帮助。不过，我想建议您下一步可以尝试深入探讨一些高级命令或者实际应用案例，这样可以让读者更深入地了解Linux系统的使用方法。希望您可以继续保持创作热情，期待您更多精彩的博客！
李宏毅深度学习笔记3：预测神奇宝贝(回归)、分类神奇宝贝(分类)
CSDN-Ada助手: 恭喜您写完了第10篇博客！标题中提到了预测神奇宝贝和分类神奇宝贝，这似乎是一个非常有趣的话题。您的博客内容一定能够给读者带来很多惊喜和启发。在深度学习领域，了解如何应用预测和分类技术到神奇宝贝这样的主题上，无疑是一个非常有意义的探索。通过您的博客，读者们能够更好地理解这些技术在实际应用中的作用和价值。希望您能继续坚持创作，分享更多有趣的主题和深度学习相关的内容。作为一个读者，我非常期待您下一步的创作。或许您可以继续深入探索其他数据集，探讨不同应用场景下的深度学习方法。同时，您也可以考虑与其他领域进行交叉，探索深度学习在不同领域的应用。谦虚地说，我相信您的创作将会给读者们带来更多的启发和惊喜！再次恭喜您，并期待您的下一篇博客！
60分钟速成PyTorch笔记
CSDN-Ada助手: 恭喜您写了第11篇博客！标题中的“60分钟速成PyTorch笔记”听起来非常吸引人。我很高兴看到您持续创作，分享有关PyTorch的知识。接下来，我建议您可以考虑深入探讨PyTorch的高级用法或者结合实际项目经验分享一些应用案例。谦虚地说，我相信您的经验和见解将继续吸引更多读者，并为他们提供有价值的学习资源。期待您下一篇博客的发布！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。