通俗易懂的AI图像生成术语解析

文生图术语通俗解释

在 AI 图像生成中,有一些常用术语。本文将用通俗易懂的语言为您解释这些术语。

提示词 ——“画稿大纲”

提示词就像是画画前的构思。例如,想画"热闹的春节庙会",这就是提示词。描述越详细,生成的图像就越接近您心中的画面。

模型 ——“绘画老师”

模型是一个"绘画老师",它通过学习大量图像,掌握了各种绘画技巧。根据提示词,它会在"画布"上创作出图像。不同的模型擅长不同的风格。

采样器 ——“画笔挑选员”

采样器决定了模型用什么"画笔"来绘画。不同的采样器会影响图像的线条流畅度和颜色过渡效果。

步数 ——“绘画步骤”

步数是指生成图像的步骤数。步数多,图像更精细,但生成时间更长。根据需要调整步数,就像画画时决定细致程度。

CFG Scale ——“重视程度调节器”

CFG Scale 控制模型对提示词的重视程度。值高,图像更符合提示词;值低,模型更随意。

种子 ——“起笔信号”

种子是生成图像的起始信号。相同的种子和条件会生成相似的图像。

ComfyUI 节点解释

ComfyUI 的工作流由多个节点组成,每个节点都有特定功能。
在这里插入图片描述

1. Checkpoint加载器(简易)

  • 功能:加载预训练的模型,为图像生成提供基础。

2. CLIP文本编码

  • 功能:将文本提示词编码为模型可理解的语义向量。

3. K采样器

  • 功能:从潜在空间中抽取样本,生成最终图像。

4. VAE解码

  • 功能:将潜在图像转换为可视化图像。

5. 预览图像

  • 功能:实时查看生成的图像,便于调整。

6. 空latent图像

  • 功能:生成一个空的潜在图像,作为生成起点。

这些节点共同构成了 ComfyUI 的工作流,实现从文本提示到图像生成的完整过程。

comfyui节点执行顺序

  1. 加载模型节点(Checkpoint Loader):

    • 加载预训练的 Stable Diffusion 模型。
    • 提供模型权重和结构,为后续的图像生成提供基础。
  2. 文本编码节点(CLIP Text Encoder):

    • 将文本提示词编码为向量,转换为模型可以理解的语义信息。
    • 为图像生成提供条件输入,指导模型生成符合用户描述的图像。
  3. 采样器节点(K Sampler):

    • 结合载入的模型、提示词的输入以及潜在图像,进行采样计算,输出得到最终图像。
    • 控制图像生成的具体方式,通过不同的算法迭代优化图像。
  4. VAE 解码节点(VAE Decoder):

    • 执行 VAE 模型的解码过程,将潜在图像解码为像素图像。
    • 将生成的潜在图像转换为用户可以查看的最终图像。
  5. 预览图像节点(Preview Image):

    • 显示当前生成的图像,方便用户在生成过程中进行调整和优化。
    • 提供即时反馈,帮助用户监控生成过程,确保生成的图像符合预期。
  6. 空 latent 图像节点(Empty Latent Image):

    • 生成一个纯噪声的潜在空间图像,定义生成图像的尺寸和批次数量。
    • 作为图像生成的初始输入,后续通过模型的迭代过程逐渐转化为目标图像。

这些节点共同构成了 ComfyUI 的工作流,实现从文本提示到最终图像生成的完整流程。

以下是 K 采样器中各参数的含义、功能及常用参数值说明:

1. 种子(seed)

  • 含义:用于生成随机噪声的随机数种子。
  • 功能:控制生成图像的随机性,使用相同的种子可以生成相同的图像。
  • 常用参数值:通常为整数,范围在 0 到 18446744073709551615 之间。

2. control_after_generate

  • 含义:控制生成后种子的变化方式。
  • 功能:可以选择固定种子(fixed)、递增种子(increment)、递减种子(decrement)或随机化种子(randomize)。
  • 常用参数值:fixed、increment、decrement、randomize。

3. 步数(steps)

  • 含义:去噪过程中使用的步骤数。
  • 功能:步数越多,生成的图像越精细,但生成速度会变慢。
  • 常用参数值:20-30(常规),10-15(低步数场景),30+(高精度场景)。

4. cfg

  • 含义:提示词引导系数(Classifier Free Guidance)。
  • 功能:控制生成的图像与提示词的贴合程度,值越高,生成的图像越符合提示词描述,但过高可能导致图像生硬。
  • 常用参数值:7-9(常规),3.5-6(SD1.5 模型),6-8(SDXL 模型),1(Flux 模型)。

5. 采样器名称(sampler_name)

  • 含义:选择用于去噪的采样器。
  • 功能:不同的采样器会影响生成图像的速度和质量。
  • 常用参数值:dpmpp_2m、euler、ddim、karras。

6. 调度器(scheduler)

  • 含义:控制去噪过程中噪声水平的变化策略。
  • 功能:影响生成图像的质量、细节和速度。
  • 常用参数值:normal、karras、ddim、dpm_solver。

7. 降噪(denoise)

  • 含义:去噪强度,表示去除多少比例的噪声。
  • 功能:值越高,生成的图像与原始图像的差异越大;值越低,生成的图像与原始图像的贴合度越高。
  • 常用参数值:1.0(默认),0.4-0.6(低步数场景),0.8-1.0(高精度场景)。

CLIP文本编码

在K采样其中,有连接2个CLIP文本编码, 一个是正向提示词,一个是负向提示词

正向提示词

  • 功能与作用
    • 精准描述:明确告诉 AI 你想要生成的图像内容,包括主题、场景、人物、物体、风格、色彩、氛围等,使生成的图像更符合你的预期。
    • 引导创作:激发 AI 的创造力,按照你的描述生成具有特定特征和风格的图像,帮助你实现脑海中的创意构思。
  • 使用技巧
    • 具体明确:使用清晰、具体的词汇来描述你想要的图像元素,避免模糊不清的表述。例如,“金色阳光下,一片宁静的湖面反射着远处的雪山”比“美丽的风景”更能准确地引导 AI 生成你想要的图像。
    • 分层构建:将复杂的图像构想分解为多个层次或元素,逐一描述。先确定主题和背景,再添加主要元素和细节,最后调整色彩和光影,保持提示词的条理性和逻辑性。
    • 关键词组合:通过关键词的组合,形成具有特定含义和指向性的提示词。例如,“复古相机 + 街头巷尾 + 雨后清新”可以引导 AI 生成一张充满怀旧气息且带有雨后清新感的街头摄影作品。
    • 参考与借鉴:从已有的艺术作品、摄影作品或电影场景中汲取灵感,将其转化为正向提示词,同时保持原创性和独特性,避免直接复制或过度模仿。
    • 实验与迭代:不断尝试不同的提示词组合,观察 AI 生成的图像变化,逐步调整和完善你的提示词,以获得更满意的生成结果。
  • 注意事项
    • 避免冲突:确保提示词之间没有相互矛盾的描述,以免 AI 生成的图像出现不一致或混乱的元素。
    • 合理使用:不要过度堆砌关键词,以免使生成的图像过于复杂或失去重点,影响整体效果。

负向提示词

  • 功能与作用
    • 排除不想要的内容:明确告诉 AI 你不希望在生成的图像中出现的元素,如低质量、变形、错误的细节等,从而提高生成图像的质量。
    • 优化图像质量:通过排除不想要的内容,使生成的图像更加符合你的审美和要求,避免出现不符合预期的元素。
  • 使用技巧
    • 常见问题排除:使用负向提示词排除一些常见的图像质量问题,如“low quality”(低质量)、“blurry”(模糊)、“deformed”(变形)等,以确保生成的图像具有较高的质量。
    • 结合正向提示词:负向提示词与正向提示词结合使用,可以更全面地控制生成的图像效果。例如,在正向提示词中描述你想要的场景和元素,同时在负向提示词中排除不想要的元素。
    • 使用权重:可以为负向提示词设置权重,以强调或减弱某些不想要的元素的排除程度。例如,“(worst quality:2)”表示更强烈地排除低质量的图像。
  • 注意事项
    • 避免过度排除:不要过度使用负向提示词,以免排除过多的内容,导致生成的图像过于简单或失去一些细节。
    • 合理搭配:负向提示词应与正向提示词合理搭配,确保生成的图像既符合你的要求,又具有一定的艺术性和观赏性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值