Diffusion Model

最新推荐文章于 2024-07-04 16:04:39 发布

今天要来电代码吗

最新推荐文章于 2024-07-04 16:04:39 发布

阅读量199

点赞数

分类专栏： AI 文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wzy1414/article/details/132892906

版权

AI 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一般生成影像的需要三个component：

**Encoder：**对文字和图像做embedding
**Generation Model：**Encoder的输入作为输出，然后输出作为中间结果
**Decoder：**对中间结果做Decode

Encoder：最常用的就是text encoder，其实就是NLP了，像gpt、bert等等（encoder对生成的图片质量影响很大）
常用的encoder有CLIP（预训练模型），属于一对pair的text和image的向量相近，否则相反
在这里插入图片描述

Decoder：不需要标签数据，只需要原始图片即可
Decoder根据中间产物进行训练
● 中间产物是小图片：我们就把原始图片缩小，然后组成一对pair丢给Decoder进行训练
● 中间产物是representation，我们做如下流程：
image->encoder->representation->decoder->image（这个image和原始image距离越近越好）

Diffusion Model运作流程（生成流程）：

首先通过高斯噪音分布进行取样，得到一个完全噪音的图像表示
通过denoise操作，较少噪音
不断重复下去直到获得最终的图像

Denoise操作并不是直接生成一张去噪后的图像，而是通过网络预测添加的噪音，然后再减去这个噪音
在这里插入图片描述

那么关键点就在于如何训练这个Noise Predicter了
Noise Predicter训练过程：

从网络上得到图片，然后做diffusion process，这样我们就有了noise信息了
我们利用（ $\epsilon_{t}, x_{t}, text, t$ ）来进行训练

Diffusion Model的训练过程：
在这里插入图片描述

$x_{0}$ 是我们从世界图片样本 $q(x_{0})$ 中抽样得到的图片；t也是1~T的一个数字； $\epsilon$ 是生成的高斯噪声，是我们要加在图片上的。
我们训练的目标就是让我们预测的 $\epsilon_{0}$ 与实际 $\epsilon$ 更相近

TODO：数学推导

今天要来电代码吗

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Diffusion Model

Encoder：最常用的就是text encoder，其实就是NLP了，像gpt、bert等等（encoder对生成的图片质量影响很大）常用的encoder有CLIP（预训练模型），属于一对pair的text和image的向量相近，否则相反。Denoise操作并不是直接生成一张去噪后的图像，而是通过网络预测添加的噪音，然后再减去这个噪音。● 中间产物是小图片：我们就把原始图片缩小，然后组成一对pair丢给Decoder进行训练。是生成的高斯噪声，是我们要加在图片上的。我们训练的目标就是让我们预测的。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。