文生图术语通俗解释
在 AI 图像生成中,有一些常用术语。本文将用通俗易懂的语言为您解释这些术语。
提示词 ——“画稿大纲”
提示词就像是画画前的构思。例如,想画"热闹的春节庙会",这就是提示词。描述越详细,生成的图像就越接近您心中的画面。
模型 ——“绘画老师”
模型是一个"绘画老师",它通过学习大量图像,掌握了各种绘画技巧。根据提示词,它会在"画布"上创作出图像。不同的模型擅长不同的风格。
采样器 ——“画笔挑选员”
采样器决定了模型用什么"画笔"来绘画。不同的采样器会影响图像的线条流畅度和颜色过渡效果。
步数 ——“绘画步骤”
步数是指生成图像的步骤数。步数多,图像更精细,但生成时间更长。根据需要调整步数,就像画画时决定细致程度。
CFG Scale ——“重视程度调节器”
CFG Scale 控制模型对提示词的重视程度。值高,图像更符合提示词;值低,模型更随意。
种子 ——“起笔信号”
种子是生成图像的起始信号。相同的种子和条件会生成相似的图像。
ComfyUI 节点解释
ComfyUI 的工作流由多个节点组成,每个节点都有特定功能。
1. Checkpoint加载器(简易)
- 功能:加载预训练的模型,为图像生成提供基础。
2. CLIP文本编码
- 功能:将文本提示词编码为模型可理解的语义向量。
3. K采样器
- 功能:从潜在空间中抽取样本,生成最终图像。
4. VAE解码
- 功能:将潜在图像转换为可视化图像。
5. 预览图像
- 功能:实时查看生成的图像,便于调整。
6. 空latent图像
- 功能:生成一个空的潜在图像,作为生成起点。
这些节点共同构成了 ComfyUI 的工作流,实现从文本提示到图像生成的完整过程。
comfyui节点执行顺序
-
加载模型节点(Checkpoint Loader):
- 加载预训练的 Stable Diffusion 模型。
- 提供模型权重和结构,为后续的图像生成提供基础。
-
文本编码节点(CLIP Text Encoder):
- 将文本提示词编码为向量,转换为模型可以理解的语义信息。
- 为图像生成提供条件输入,指导模型生成符合用户描述的图像。
-
采样器节点(K Sampler):
- 结合载入的模型、提示词的输入以及潜在图像,进行采样计算,输出得到最终图像。
- 控制图像生成的具体方式,通过不同的算法迭代优化图像。
-
VAE 解码节点(VAE Decoder):
- 执行 VAE 模型的解码过程,将潜在图像解码为像素图像。
- 将生成的潜在图像转换为用户可以查看的最终图像。
-
预览图像节点(Preview Image):
- 显示当前生成的图像,方便用户在生成过程中进行调整和优化。
- 提供即时反馈,帮助用户监控生成过程,确保生成的图像符合预期。
-
空 latent 图像节点(Empty Latent Image):
- 生成一个纯噪声的潜在空间图像,定义生成图像的尺寸和批次数量。
- 作为图像生成的初始输入,后续通过模型的迭代过程逐渐转化为目标图像。
这些节点共同构成了 ComfyUI 的工作流,实现从文本提示到最终图像生成的完整流程。
以下是 K 采样器中各参数的含义、功能及常用参数值说明:
1. 种子(seed)
- 含义:用于生成随机噪声的随机数种子。
- 功能:控制生成图像的随机性,使用相同的种子可以生成相同的图像。
- 常用参数值:通常为整数,范围在 0 到 18446744073709551615 之间。
2. control_after_generate
- 含义:控制生成后种子的变化方式。
- 功能:可以选择固定种子(fixed)、递增种子(increment)、递减种子(decrement)或随机化种子(randomize)。
- 常用参数值:fixed、increment、decrement、randomize。
3. 步数(steps)
- 含义:去噪过程中使用的步骤数。
- 功能:步数越多,生成的图像越精细,但生成速度会变慢。
- 常用参数值:20-30(常规),10-15(低步数场景),30+(高精度场景)。
4. cfg
- 含义:提示词引导系数(Classifier Free Guidance)。
- 功能:控制生成的图像与提示词的贴合程度,值越高,生成的图像越符合提示词描述,但过高可能导致图像生硬。
- 常用参数值:7-9(常规),3.5-6(SD1.5 模型),6-8(SDXL 模型),1(Flux 模型)。
5. 采样器名称(sampler_name)
- 含义:选择用于去噪的采样器。
- 功能:不同的采样器会影响生成图像的速度和质量。
- 常用参数值:dpmpp_2m、euler、ddim、karras。
6. 调度器(scheduler)
- 含义:控制去噪过程中噪声水平的变化策略。
- 功能:影响生成图像的质量、细节和速度。
- 常用参数值:normal、karras、ddim、dpm_solver。
7. 降噪(denoise)
- 含义:去噪强度,表示去除多少比例的噪声。
- 功能:值越高,生成的图像与原始图像的差异越大;值越低,生成的图像与原始图像的贴合度越高。
- 常用参数值:1.0(默认),0.4-0.6(低步数场景),0.8-1.0(高精度场景)。
CLIP文本编码
在K采样其中,有连接2个CLIP文本编码, 一个是正向提示词,一个是负向提示词
正向提示词
- 功能与作用
- 精准描述:明确告诉 AI 你想要生成的图像内容,包括主题、场景、人物、物体、风格、色彩、氛围等,使生成的图像更符合你的预期。
- 引导创作:激发 AI 的创造力,按照你的描述生成具有特定特征和风格的图像,帮助你实现脑海中的创意构思。
- 使用技巧
- 具体明确:使用清晰、具体的词汇来描述你想要的图像元素,避免模糊不清的表述。例如,“金色阳光下,一片宁静的湖面反射着远处的雪山”比“美丽的风景”更能准确地引导 AI 生成你想要的图像。
- 分层构建:将复杂的图像构想分解为多个层次或元素,逐一描述。先确定主题和背景,再添加主要元素和细节,最后调整色彩和光影,保持提示词的条理性和逻辑性。
- 关键词组合:通过关键词的组合,形成具有特定含义和指向性的提示词。例如,“复古相机 + 街头巷尾 + 雨后清新”可以引导 AI 生成一张充满怀旧气息且带有雨后清新感的街头摄影作品。
- 参考与借鉴:从已有的艺术作品、摄影作品或电影场景中汲取灵感,将其转化为正向提示词,同时保持原创性和独特性,避免直接复制或过度模仿。
- 实验与迭代:不断尝试不同的提示词组合,观察 AI 生成的图像变化,逐步调整和完善你的提示词,以获得更满意的生成结果。
- 注意事项
- 避免冲突:确保提示词之间没有相互矛盾的描述,以免 AI 生成的图像出现不一致或混乱的元素。
- 合理使用:不要过度堆砌关键词,以免使生成的图像过于复杂或失去重点,影响整体效果。
负向提示词
- 功能与作用
- 排除不想要的内容:明确告诉 AI 你不希望在生成的图像中出现的元素,如低质量、变形、错误的细节等,从而提高生成图像的质量。
- 优化图像质量:通过排除不想要的内容,使生成的图像更加符合你的审美和要求,避免出现不符合预期的元素。
- 使用技巧
- 常见问题排除:使用负向提示词排除一些常见的图像质量问题,如“low quality”(低质量)、“blurry”(模糊)、“deformed”(变形)等,以确保生成的图像具有较高的质量。
- 结合正向提示词:负向提示词与正向提示词结合使用,可以更全面地控制生成的图像效果。例如,在正向提示词中描述你想要的场景和元素,同时在负向提示词中排除不想要的元素。
- 使用权重:可以为负向提示词设置权重,以强调或减弱某些不想要的元素的排除程度。例如,“(worst quality:2)”表示更强烈地排除低质量的图像。
- 注意事项
- 避免过度排除:不要过度使用负向提示词,以免排除过多的内容,导致生成的图像过于简单或失去一些细节。
- 合理搭配:负向提示词应与正向提示词合理搭配,确保生成的图像既符合你的要求,又具有一定的艺术性和观赏性。