通俗易懂的AI图像生成术语解析

最新推荐文章于 2025-04-23 15:46:44 发布

未来创世纪

最新推荐文章于 2025-04-23 15:46:44 发布

阅读量677

点赞数 21

文章标签：人工智能计算机视觉

本文链接：https://blog.csdn.net/xinjichenlibing/article/details/145972323

版权

文生图术语通俗解释

在 AI 图像生成中，有一些常用术语。本文将用通俗易懂的语言为您解释这些术语。

提示词 ——“画稿大纲”

提示词就像是画画前的构思。例如，想画"热闹的春节庙会"，这就是提示词。描述越详细，生成的图像就越接近您心中的画面。

模型 ——“绘画老师”

模型是一个"绘画老师"，它通过学习大量图像，掌握了各种绘画技巧。根据提示词，它会在"画布"上创作出图像。不同的模型擅长不同的风格。

采样器 ——“画笔挑选员”

采样器决定了模型用什么"画笔"来绘画。不同的采样器会影响图像的线条流畅度和颜色过渡效果。

步数 ——“绘画步骤”

步数是指生成图像的步骤数。步数多，图像更精细，但生成时间更长。根据需要调整步数，就像画画时决定细致程度。

CFG Scale ——“重视程度调节器”

CFG Scale 控制模型对提示词的重视程度。值高，图像更符合提示词；值低，模型更随意。

种子 ——“起笔信号”

种子是生成图像的起始信号。相同的种子和条件会生成相似的图像。

ComfyUI 节点解释

ComfyUI 的工作流由多个节点组成，每个节点都有特定功能。
在这里插入图片描述

1. Checkpoint加载器（简易）

功能：加载预训练的模型，为图像生成提供基础。

2. CLIP文本编码

功能：将文本提示词编码为模型可理解的语义向量。

3. K采样器

功能：从潜在空间中抽取样本，生成最终图像。

4. VAE解码

功能：将潜在图像转换为可视化图像。

5. 预览图像

功能：实时查看生成的图像，便于调整。

6. 空latent图像

功能：生成一个空的潜在图像，作为生成起点。

这些节点共同构成了 ComfyUI 的工作流，实现从文本提示到图像生成的完整过程。

comfyui节点执行顺序

加载模型节点（Checkpoint Loader）：
- 加载预训练的 Stable Diffusion 模型。
- 提供模型权重和结构，为后续的图像生成提供基础。
文本编码节点（CLIP Text Encoder）：
- 将文本提示词编码为向量，转换为模型可以理解的语义信息。
- 为图像生成提供条件输入，指导模型生成符合用户描述的图像。
采样器节点（K Sampler）：
- 结合载入的模型、提示词的输入以及潜在图像，进行采样计算，输出得到最终图像。
- 控制图像生成的具体方式，通过不同的算法迭代优化图像。
VAE 解码节点（VAE Decoder）：
- 执行 VAE 模型的解码过程，将潜在图像解码为像素图像。
- 将生成的潜在图像转换为用户可以查看的最终图像。
预览图像节点（Preview Image）：
- 显示当前生成的图像，方便用户在生成过程中进行调整和优化。
- 提供即时反馈，帮助用户监控生成过程，确保生成的图像符合预期。
空 latent 图像节点（Empty Latent Image）：
- 生成一个纯噪声的潜在空间图像，定义生成图像的尺寸和批次数量。
- 作为图像生成的初始输入，后续通过模型的迭代过程逐渐转化为目标图像。

这些节点共同构成了 ComfyUI 的工作流，实现从文本提示到最终图像生成的完整流程。

以下是 K 采样器中各参数的含义、功能及常用参数值说明：

1. 种子（seed）

含义：用于生成随机噪声的随机数种子。
功能：控制生成图像的随机性，使用相同的种子可以生成相同的图像。
常用参数值：通常为整数，范围在 0 到 18446744073709551615 之间。

2. control_after_generate

含义：控制生成后种子的变化方式。
功能：可以选择固定种子（fixed）、递增种子（increment）、递减种子（decrement）或随机化种子（randomize）。
常用参数值：fixed、increment、decrement、randomize。

3. 步数（steps）

含义：去噪过程中使用的步骤数。
功能：步数越多，生成的图像越精细，但生成速度会变慢。
常用参数值：20-30（常规），10-15（低步数场景），30+（高精度场景）。

4. cfg

含义：提示词引导系数（Classifier Free Guidance）。
功能：控制生成的图像与提示词的贴合程度，值越高，生成的图像越符合提示词描述，但过高可能导致图像生硬。
常用参数值：7-9（常规），3.5-6（SD1.5 模型），6-8（SDXL 模型），1（Flux 模型）。

5. 采样器名称（sampler_name）

含义：选择用于去噪的采样器。
功能：不同的采样器会影响生成图像的速度和质量。
常用参数值：dpmpp_2m、euler、ddim、karras。

6. 调度器（scheduler）

含义：控制去噪过程中噪声水平的变化策略。
功能：影响生成图像的质量、细节和速度。
常用参数值：normal、karras、ddim、dpm_solver。

7. 降噪（denoise）

含义：去噪强度，表示去除多少比例的噪声。
功能：值越高，生成的图像与原始图像的差异越大；值越低，生成的图像与原始图像的贴合度越高。
常用参数值：1.0（默认），0.4-0.6（低步数场景），0.8-1.0（高精度场景）。

CLIP文本编码

在K采样其中，有连接2个CLIP文本编码，一个是正向提示词，一个是负向提示词

正向提示词

功能与作用
- 精准描述：明确告诉 AI 你想要生成的图像内容，包括主题、场景、人物、物体、风格、色彩、氛围等，使生成的图像更符合你的预期。
- 引导创作：激发 AI 的创造力，按照你的描述生成具有特定特征和风格的图像，帮助你实现脑海中的创意构思。
使用技巧
- 具体明确：使用清晰、具体的词汇来描述你想要的图像元素，避免模糊不清的表述。例如，“金色阳光下，一片宁静的湖面反射着远处的雪山”比“美丽的风景”更能准确地引导 AI 生成你想要的图像。
- 分层构建：将复杂的图像构想分解为多个层次或元素，逐一描述。先确定主题和背景，再添加主要元素和细节，最后调整色彩和光影，保持提示词的条理性和逻辑性。
- 关键词组合：通过关键词的组合，形成具有特定含义和指向性的提示词。例如，“复古相机 + 街头巷尾 + 雨后清新”可以引导 AI 生成一张充满怀旧气息且带有雨后清新感的街头摄影作品。
- 参考与借鉴：从已有的艺术作品、摄影作品或电影场景中汲取灵感，将其转化为正向提示词，同时保持原创性和独特性，避免直接复制或过度模仿。
- 实验与迭代：不断尝试不同的提示词组合，观察 AI 生成的图像变化，逐步调整和完善你的提示词，以获得更满意的生成结果。
注意事项
- 避免冲突：确保提示词之间没有相互矛盾的描述，以免 AI 生成的图像出现不一致或混乱的元素。
- 合理使用：不要过度堆砌关键词，以免使生成的图像过于复杂或失去重点，影响整体效果。

负向提示词

功能与作用
- 排除不想要的内容：明确告诉 AI 你不希望在生成的图像中出现的元素，如低质量、变形、错误的细节等，从而提高生成图像的质量。
- 优化图像质量：通过排除不想要的内容，使生成的图像更加符合你的审美和要求，避免出现不符合预期的元素。
使用技巧
- 常见问题排除：使用负向提示词排除一些常见的图像质量问题，如“low quality”（低质量）、“blurry”（模糊）、“deformed”（变形）等，以确保生成的图像具有较高的质量。
- 结合正向提示词：负向提示词与正向提示词结合使用，可以更全面地控制生成的图像效果。例如，在正向提示词中描述你想要的场景和元素，同时在负向提示词中排除不想要的元素。
- 使用权重：可以为负向提示词设置权重，以强调或减弱某些不想要的元素的排除程度。例如，“(worst quality:2)”表示更强烈地排除低质量的图像。
注意事项
- 避免过度排除：不要过度使用负向提示词，以免排除过多的内容，导致生成的图像过于简单或失去一些细节。
- 合理搭配：负向提示词应与正向提示词合理搭配，确保生成的图像既符合你的要求，又具有一定的艺术性和观赏性。