🎨 AI 绘画领域的"黑话"指南:从入门到精通
📚 本指南持续更新中!帮助你解密文生图(Text-to-Image,简称T2I)领域的专业术语,轻松掌握核心概念。
目录
一、核心模型篇 🚀
1. 生成模型族
-
VAE (Variational Auto-Encoder, 变分自编码器)
- 含义:变分(Variational)+ 自动(Auto)+ 编码器(Encoder)
- 功能:将图像压缩到潜在空间并重建
- 应用:图像生成、风格迁移、数据增强
- 角色:AI绘画中的"画师",负责最终图像生成
-
Diffusion Models (扩散模型)
- 全称:Denoising Diffusion Probabilistic Models (DDPM, 去噪扩散概率模型)
- 功能:通过逐步去噪生成图像
- 应用:高质量图像生成、图像编辑
- 特点:目前文生图主流技术
-
GAN (Generative Adversarial Networks, 生成对抗网络)
- 含义:生成式(Generative)+ 对抗(Adversarial)+ 网络(Networks)
- 功能:生成器与判别器配合生成图像
- 应用:风格迁移、图像增强
- 特点:生成质量高但训练不稳定
2. 文本理解模型族
-
T5 (Text-To-Text Transfer Transformer)
- 含义:文本到文本(Text-To-Text)+ 迁移(Transfer)+ Transformer
- 功能:文本转换与理解
- 应用:提示词理解、文本特征提取
- 角色:AI绘画中的"翻译官"
-
BERT (Bidirectional Encoder Representations from Transformers)
- 含义:双向(Bidirectional)+ 编码器(Encoder)+ 表示(Representations)+ 来自(from)+ Transformers
- 功能:双向文本编码
- 应用:语义理解、特征提取
- 特点:强大的文本理解能力
3. 多模态模型族
- CLIP (Contrastive Language-Image Pre-training)
- 含义:对比(Contrastive)+ 语言-图像(Language-Image)+ 预训练(Pre-training)
- 功能:图文对齐与匹配
- 应用:图像检索、零样本学习
- 角色:AI绘画中的"校对员"
二、技术概念篇 💡
1. 基础概念
-
LS (Latent Space, 潜在空间)
- 含义:潜在(Latent)+ 空间(Space)
- 定义:模型学习到的数据表示空间
- 作用:实现图像生成和编辑
- 特点:连续可操作
-
Embedding (嵌入)
- 全称:Vector Embedding(向量嵌入)
- 定义:将输入转化为向量表示
- 作用:连接不同模态的桥梁
- 应用:文本理解、图像特征提取
2. 学习方法
-
ZSL (Zero-shot Learning, 零样本学习)
- 含义:零(Zero)+ 样本(shot)+ 学习(Learning)
- 定义:无需专门训练即可完成新任务
- 优势:灵活性强,适应性好
- 应用:CLIP模型的核心能力
-
TL (Transfer Learning, 迁移学习)
- 含义:迁移(Transfer)+ 学习(Learning)
- 定义:利用预训练模型解决新任务
- 优势:减少训练成本,提高效果
- 应用:模型微调、风格迁移
三、应用技巧篇 🎯
-
Style Transfer(风格迁移)
- 含义:风格(Style)+ 迁移(Transfer)
- 原理:将参考图片的风格应用到目标图片
- 应用:艺术创作、图像美化
- 技巧:选择合适的参考图片很关键
- 类型:
- NST (Neural Style Transfer):神经风格迁移
- AST (Adaptive Style Transfer):自适应风格迁移
- RST (Real-time Style Transfer):实时风格迁移
-
Image-to-Image (图像到图像转换)
- 含义:图像到图像(Image-to-Image)
- 功能:图像转换、修复、编辑
- 应用:图像修复、风格迁移
- 特点:需要参考图像指导
-
Checkpoint(检查点)
- 含义:模型检查点
- 用途:保存模型状态
- 特点:
- 完整模型存储
- 可迁移使用
- 版本控制
- 含义:模型检查点
四、工具与框架篇 🛠️
1. 开源框架
-
ComfyUI (Comfortable User Interface)
- 含义:舒适的(Comfortable)+ 用户界面(User Interface)
- 类型:节点式工作流工具
- 特点:
- 可视化节点编辑
- 支持复杂工作流
- 高度自定义能力
- 应用:
- 多 ControlNet 串联
- 局部重绘
- 自定义生成流程
-
ControlNet ( 控制网络)
- 含义:控制(Control)+ 网络(Network)
- 功能:通过条件图像控制生成
- 输入类型:
- 线稿(Sketch)
- 深度图(Depth Map)
- 姿态图(Pose)
- 边缘图(Edge)
- 分割图(Segmentation)
- 应用:精确控制生成图像的姿势、结构等
- 特点:高度可控,适用于复杂场景
-
Hypernetwork(超网络)
- 含义:超(Hyper)+ 网络(Network)
- 功能:通过小型网络调整主模型的权重
- 应用:模型微调、风格定制
- 特点:轻量级,适合特定任务
-
Dreambooth
- 含义:梦境(Dream)+ 展位(Booth)
- 功能:通过少量特定主题图像训练模型生成个性化内容,同时保持模型原有能力
- 应用:个性化肖像生成、特定物品复现、品牌视觉定制等
- 特点:需要3-5张高质量的目标主题图像,会同时使用正则化图像来维持模型性能
-
Lora (Low-Rank Adaptation)
- 含义:低秩(Low-Rank)+ 适应(Adaptation)
- 功能:通过低秩矩阵调整模型权重,实现高效微调
- 应用:模型微调、风格迁移
- 特点:高效、轻量级
-
Textual Inversion(文本反转)
- 含义:文本(Textual)+ 反转/逆向(Inversion)
- 功能:学习将特定概念或风格映射到模型的文本嵌入空间中
- 应用:自定义风格词、概念词的生成
- 特点:只需少量参考图像,训练成本较低
2.技术参数与设置 ⚙️
-
Prompt Engineering ( 提示词工程)
- 含义:提示(Prompt)+ 工程(Engineering)
- 定义:设计优化提示词以获得理想结果
- 要素:关键词、权重、否定提示词
- 技巧:多尝试、积累经验
-
CFG (Classifier Free Guidance, 无分类器引导)
- 含义:无分类器(Classifier Free)+ 引导(Guidance)
- 定义:控制生成图像与提示词的匹配程度
- 应用:调整生成图像的质量和相关性
- 参数:数值越大,图像越符合提示词描述
-
Samplers
- 种类:
- Euler a:欧拉祖先采样器
- DPM++: Dynamic Prediction Model改进版
- DDIM: Denoising Diffusion Implicit Model
- K_LMS: Karras Linear Multistep
- UniPC: Unified Predictor-Corrector
- 选择建议:
- 速度优先:Euler a
- 质量优先:DPM++
- 平衡选择:DDIM
- 种类:
-
Inpainting(局部重绘)
- 含义:局部图像重绘
- 功能:指定区域重新生成
- 操作方式:
- 蒙版绘制
- 区域选择
- 应用:
- 局部修改
- 缺陷修复
- 内容替换
-
Steps(步数)
- 含义:采样步数
- 范围:通常20-50
- 作用:决定细节生成程度
- 建议:
- 粗略生成:20步
- 精细生成:50步
- 常用设置:30-40步
-
Batch Size(批次大小)
- 含义:每批次生成图片的数量
- 应用:控制并行生成数量
- 示例:设置为2时每次生成2张图片
- 建议:根据设备性能调整
-
Width and Height(宽度和高度)
- 含义:生成图片的尺寸参数
- 基准:SD 1.5基于512*512训练
- 注意:偏离基准可能导致异常
- 建议:优先使用标准尺寸
-
Batch Count(批次数量)
- 含义:生成图片的总批次数
- 计算:总图片数 = Batch Size × Batch Count
- 示例:Size=2, Count=3 将生成6张图片
- 用途:批量生成多组图片
-
Seed(种子值)
- 含义:图片生成的随机种子
- 功能:控制图片内容的确定性
- 设置:
- -1:使用随机种子
- 固定值:重现特定生成结果
- 应用:图片再现与风格复制
📝 总结
- 生成模型 是 AI 绘画的“画师”,负责将潜在表示解码为图像。
- 文本编码器 是“翻译官”,将自然语言转化为机器语言。
- 多模态模型 是“校对员”,确保图像与文本描述一致。
- 高级技术 如 Hypernetwork、Dreambooth、Lora 和 ControlNet 提供了更精细的控制和定制能力。
🔄 更新记录
- 2025.01.20:初版发布,建立基础框架
- 2025.01.20:补充各术语的完整英文解释和缩写来源
- 2025.01.21:新增 Hypernetwork、Dreambooth、Lora、ControlNet 等高级技术术语
- 2025.02.11:新增 Textual Inversion
- 待更新:
📢 交流与反馈
- 如果你对某个术语特别感兴趣,欢迎在评论区留言
- 如果你发现新的重要概念,也请告诉我们
- 让我们一起完善这份指南!