扩散模型（diffusion model）快速理解

置顶 Quanato

已于 2023-12-13 21:43:50 修改

阅读量784

点赞数 11

文章标签：人工智能神经网络深度学习机器学习算法

于 2023-12-13 18:19:42 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_73784868/article/details/134977899

版权

一. 序言

笔者最近学习多模态相关的论文，有些基础知识和模型再论文或者其他的文章中都体现的很复杂。但是台大李宏毅教授对这些知识的解释都很通俗，且非常清晰，因此这文章的是以他的视频为基础解释的。

二. 模型结构

1. 前向传播

概念

前向传播的过程通过生成的噪音通过马尔科夫链给原始图片加噪，相当于是在生成训练样本和标签。这里样本是每一步生成的带噪音的图片，标签则是给每一步加上的噪音值。因为需要预测每张图片所对应的噪音，让噪音图片减去噪音来实现去噪才是模型训练的最终目的。

具体实现（U-net 模型训练）

标注都有，非常清晰

2. 逆向传播

逆向传播的过程相当于借助训练好的模型预测第t-1张图片到t张图片所添加的噪音，通过第t张图片和预测的噪音运算得到第t-1张图片。最终，连续进行逆向传播得到无噪声图片。

逆向传播的训练即为模型提取图像特征，从纯噪音无图像信息的图片借助提取的特征逐步生成一张图片。

三. 特殊的模型结构解释

1. 为什么要一步一步训练而不是直接通过Xt和X0进行训练呢？z又是为何存在呢？

类似于形成语言和声音的模型，通过在每一步中添加不确定的噪音提高模型的表现，更加接近人类的视觉和表达。

论证的实验：

增加噪音z后可以正常生成图片但是去除噪音后就效果不佳

2. 纯噪声没有图片信息也能通过扩散模型还原出一张带信息图片？

不能，在扩散模型中，我们通常所说的“纯噪声”其实是指含有大量噪声的图片，而不是完全没有任何信息的噪声。这些噪声图片在经过扩散模型处理后，可以恢复出原始的、含有丰富信息的图片。

这里的纯噪音应该只是含有大量噪音的具有图片信息的图片，而预测的噪音则带有图片信息所以噪音也可以作为原图的特征图，因为扩散模型是借助带噪声图片生成噪音的，说明扩散模型可以提取图片信息因此噪声带有图片信息。

这也给后续许多模型借助扩散模型自监督提取图片特征打下了基础。而且训练时并不是采取整个模型的loss去训练扩散模型的参数，而是通过扩散模型自带的噪音预测网络的损失来训练。噪音预测网络的根本是借助带噪声图片预测噪声，因此具有泛化性，不会拟合于特定图片。

Dif-Fusion

通过模型中各个阶段提取的图像特征结合获取提取的图像特征

关注

11
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
扩散模型（diffusion model）快速理解

笔者最近学习多模态相关的论文，有些基础知识和模型再论文或者其他的文章中都体现的很复杂。但是台大李宏毅教授对这些知识的解释都很通俗，且非常清晰，因此这文章的是以他的视频为基础解释的。因为需要预测每张图片所对应的噪音，让噪音图片减去噪音来实现去噪才是模型训练的最终目的。前向传播的过程通过生成的噪音通过马尔科夫链给原始图片加噪，相当于是在。逆向传播的过程相当于借助训练好的模型。类似于形成语言和声音的模型，通过在。最终，连续进行逆向传播得到无噪声图片。，更加接近人类的视觉和表达。
复制链接

扫一扫

Quanato CSDN认证博客专家 CSDN认证企业博客

码龄2年

24: 原创

117万+: 周排名

9万+: 总排名

1万+: 访问

: 等级

533: 积分

232: 粉丝

288: 获赞

12: 评论

331: 收藏

私信

关注

热门文章

分类专栏

手撸AI 专栏

最新评论

手撸AI-4: Accelerate库分布式训练详解
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
关于Couldn‘t find MySQL server (/usr/local/mysql/bin/mysqld_safe)
CSDN-Ada助手: 非常感谢您分享这篇博文，对于遇到类似问题的读者来说会非常有帮助。希望您能继续坚持创作，分享更多关于MySQL和其他技术方面的知识和经验。另外，除了更改执行权限，也可以通过检查文件所属用户和用户组、查看系统日志等方式来进一步排查和解决类似的问题。希望这些信息对您有所帮助，期待您未来的更多精彩内容！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
VMLoc模型解读和原理分析
CSDN-Ada助手: 恭喜作者撰写了第20篇博客《VMLoc模型解读和原理分析》，对于深入研究和分享这一主题表示钦佩。希望作者能继续保持创作的热情，不断探索更多前沿的技术和理论，为读者带来更多有价值的内容。或许下一步可以考虑结合实际案例或者应用场景，将理论知识更贴近实际，让读者更易于理解和应用。期待作者的下一篇作品。
RINCE ------- 对比损失（InfoNCE）升级版
CSDN-Ada助手: 恭喜作者完成第17篇博客！标题也非常吸引人，对比损失（InfoNCE）升级版确实是个引人注目的主题。通过您的博客，我对RINCE有了更好的了解。您的解释非常清晰，让我容易理解了该算法的原理和应用。不过，如果可能的话，我希望您在下一篇博客中能够更深入地探讨该算法的优缺点以及与其他相关算法的对比。这样的比较将使读者更全面地了解该领域的最新进展。期待您未来更多的创作！
扩散模型（diffusion model）快速理解
CSDN-Ada助手: “恭喜你写了第16篇博客，对扩散模型的介绍非常清晰易懂。不过我觉得你可以尝试加入一些实际案例或者应用领域的探讨，这样可以让读者更加直观地理解扩散模型的应用。期待你的下一篇作品！”

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。