【扩散模型学习1】Diffusion Model概念讲解

最新推荐文章于 2025-03-08 14:21:25 发布

重生之我在CUC写代码

最新推荐文章于 2025-03-08 14:21:25 发布

阅读量1.2k

点赞数 26

文章标签：学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_54098256/article/details/139349642

版权

参考学习资料：扩散模型 - Diffusion Model【李宏毅2023】_哔哩哔哩_bilibili

相关论文＆论文链接：

Denoising Diffusion Probabilistic Models (DDPM)：https://arxiv.org/abs/2006.11239

Stable Diffusion：https://arxiv.org/abs/2112.10752

DALL-E series：https//arxiv.org/abs/2204.06125、https//arxiv.org/abs/2102.12092

Imagen：https://imagen.research.google/、https://arxiv.prg/abs/2205.11487

目录

1. Diffusion Model是如何运作的：

1.1. reverse process：

1.1.1. denoise模块

1.1.1.1. denoise模块介绍：

1.1.1.2. 如何训练noise predictor模块

1.2. Forward Process（Diffusion Process）

2. 文字引导生成图片的diffusion model（Text-to-Image）

2.1 基本工作原理

2.2 denoise模块结构

2.3 如何训练

3. DDPM（Denoising Diffusion Probabilistic Models）

4. 常见影像生成模型

4.1. 基本架构

4.1.1. 文字的encoder

4.1.1.1. 指标介绍

4.1.1.2. 实验结果

4.1.3. generation model

4.1.3.1. forward process

4.1.3.2. 训练noise predicter：

4.1.3.3. reverse process

4.2. stable diffusion

4.3. DALL-E series

1. Diffusion Model是如何运作的：

1.1. reverse process：

输入一张充满噪声的图——denoise——输出一张noise少的图——denoise——输出一张noise更少的图——denoise——……——输出清晰的图片（如图1所示）

图1 REVERSE PROCESS

每张图的大小一致

1.1.1. denoise模块

denoise的次数是事先定好的，通常会有一个编号
同一个denoise的model反复使用，但是输入不同，输入是图片+noise的严重程度（数字越大，noise越多），如图2所示

图2 denoise输入和输出

1.1.1.1. denoise模块介绍：

图3 denoise模块结构

如图3所示：

①Noise Predicter：用来预测输入的图片里面的noise长什么样，输出一张Noise的图

②输入的图片 - Noise图 = 输出denoise之后的结果

1.1.1.2. 如何训练noise predictor模块

思考：如图4所示，如何搞groundtruth？？？

图4 noise predicter训练需要的groundtruth从何而来

创造groundtruth：

如图5所示，清晰的图像——加噪声——有噪声的图像——加噪声——噪声更多的图像——加噪声——……——含很多噪声的图像

以上过程称为forward process/diffusion process

图5 创造gt

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。