ComfyUI学习旅程

本文详细介绍了StableDiffusion模型的工作流程,包括模型文件结构(包含CLIP、主模型和VAE权重)、CLIP文本编码器的作用、K采样器如何生成图片、空潜在图像的使用、降噪过程以及VAE模型的解码。这些步骤展示了从文本到图像生成的整个技术路径。
摘要由CSDN通过智能技术生成

一、模型文件(Checkpoint)

首先它很大,这些文件是你从huggingface或者civitai下载而来的,

所以这些大文件如 .ckpt 或 .safetensors ,实际上包含了什么内容呢?

它包含了包含了三种不同模型的权重:CLIP、主模型和VAE。

在默认的ComfyUI工作流中,由这里的CheckpointLoader加载模型到ComfyUI中。

你能看到它会有3种输出。

二、CLIP文本编码器(CLIP Text Encode)

让我们先看CLIP文本编码器这一条分流,注意CLIP又有两条分流,分别流向正面条件和负面条件。

CLIP文本编码器的作用就是把人类语言转换成模型能够理解的数据格式。

三、K 采样器 (KSampler)

CLIP文本编码器会流动到K采样器,图片就是通过这个采样器生成的。

在K采样器中,主要输入是Stable Diffusion的模型。

同时,正向提示词和反向提示词也是作为K采样器的输入。

四、空的潜在图像

最后,需要再来一个空潜在图像作为输入。(Empty Latent Image)

这是因为我们当前的场景是文生图。

五、降噪

于是采样器会利用这个潜在空图像,向这个潜在空图像添加噪声,然后使用Stable Diffusion的模型进行降噪。

具体的降噪过程是:编码后的正面和负面提示被传递给模型,在每个采样步骤中被用来指导去噪。

这种逐渐去噪的图像生成方式,正是Stable Diffusion生成图片的方式。

最终,采样器会输出一张降噪之后的图片。

六、VAE模型解码(VAE Decode)

最后的最后,Stable Diffusion会用到VAE模型。

VAE模型被用于把处于潜在空间的图像,转换成肉眼可见的像素图像。

潜在空间的数据是Stable Diffusion模型能够理解的数据。

而像素空间的图像是图片浏览器和人类能够用肉眼观察到的图像。

这个步骤,你可以看到来自采样器的Latent潜在空间的图像作为VAE编码器的输入,通过VAE解码之后,输出常规图像。

这就是简易的工作流的基本流程

  • 4
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
用户旅程拆解法(User Journey Mapping,简称UJM)是一种设计和分析用户体验的方法。它通过将用户在使用某个产品或服务时的各个行为、感受和观点以时间顺序的方式进行整理,从而帮助设计师和产品经理更好地了解用户体验和需求,进而优化产品设计和用户体验。 UJM模型主要分为以下几个步骤: 1. 定义用户旅程:首先需要明确用户在使用产品或服务时的整个过程,包括用户的目标、行为和情感状态。 2. 制定用户旅程地图:制定用户旅程地图是UJM模型的核心环节,它通过图形化的方式展示用户在不同时间点的行为、情感和观点。这个过程需要细心地记录用户在每个时间点的行为和情感状态,并将其与产品设计方案进行匹配和比较。 3. 分析用户旅程:在分析用户旅程时,需要考虑用户的需求、期望和痛点,以及产品所提供的解决方案是否能够满足用户的需求。分析用户旅程的目的是找出产品或服务的不足之处,以便进行改进或优化。 4. 优化产品设计:通过分析用户旅程,可以了解到用户的需求和痛点,以及产品设计的不足之处。在此基础上,可以针对性地进行产品设计和改进,以提高用户体验和满意度。 总之,UJM模型是一种非常实用的用户体验设计方法,它可以帮助设计师和产品经理更好地了解用户需求和痛点,从而优化产品设计和用户体验。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CCSBRIDGE

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值