ComfyUI学习旅程

最新推荐文章于 2025-04-20 00:00:28 发布

CCSBRIDGE

最新推荐文章于 2025-04-20 00:00:28 发布

阅读量1.2k

点赞数 4

文章标签： stable diffusion

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_47420447/article/details/138158161

版权

本文详细介绍了StableDiffusion模型的工作流程，包括模型文件结构（包含CLIP、主模型和VAE权重）、CLIP文本编码器的作用、K采样器如何生成图片、空潜在图像的使用、降噪过程以及VAE模型的解码。这些步骤展示了从文本到图像生成的整个技术路径。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、模型文件（Checkpoint）

首先它很大，这些文件是你从huggingface或者civitai下载而来的，

所以这些大文件如 .ckpt 或 .safetensors ，实际上包含了什么内容呢？

它包含了包含了三种不同模型的权重：CLIP、主模型和VAE。

在默认的ComfyUI工作流中，由这里的CheckpointLoader加载模型到ComfyUI中。

你能看到它会有3种输出。

二、CLIP文本编码器（CLIP Text Encode）

让我们先看CLIP文本编码器这一条分流，注意CLIP又有两条分流，分别流向正面条件和负面条件。

CLIP文本编码器的作用就是把人类语言转换成模型能够理解的数据格式。

三、K 采样器（KSampler）

CLIP文本编码器会流动到K采样器，图片就是通过这个采样器生成的。

在K采样器中，主要输入是Stable Diffusion的模型。

同时，正向提示词和反向提示词也是作为K采样器的输入。

四、空的潜在图像

最后，需要再来一个空潜在图像作为输入。（Empty Latent Image）

这是因为我们当前的场景是文生图。

五、降噪

于是采样器会利用这个潜在空图像，向这个潜在空图像添加噪声，然后使用Stable Diffusion的模型进行降噪。

具体的降噪过程是：编码后的正面和负面提示被传递给模型，在每个采样步骤中被用来指导去噪。

这种逐渐去噪的图像生成方式，正是Stable Diffusion生成图片的方式。

最终，采样器会输出一张降噪之后的图片。

六、VAE模型解码（VAE Decode）

最后的最后，Stable Diffusion会用到VAE模型。

VAE模型被用于把处于潜在空间的图像，转换成肉眼可见的像素图像。

潜在空间的数据是Stable Diffusion模型能够理解的数据。

而像素空间的图像是图片浏览器和人类能够用肉眼观察到的图像。

这个步骤，你可以看到来自采样器的Latent潜在空间的图像作为VAE编码器的输入，通过VAE解码之后，输出常规图像。

这就是简易的工作流的基本流程

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

CCSBRIDGE 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。