AI 绘画领域的“黑话”指南:从入门到精通

🎨 AI 绘画领域的"黑话"指南:从入门到精通

📚 本指南持续更新中!帮助你解密文生图(Text-to-Image,简称T2I)领域的专业术语,轻松掌握核心概念。

一、核心模型篇 🚀

1. 生成模型族

  • VAE (Variational Auto-Encoder, 变分自编码器)

    • 含义:变分(Variational)+ 自动(Auto)+ 编码器(Encoder)
    • 功能:将图像压缩到潜在空间并重建
    • 应用:图像生成、风格迁移、数据增强
    • 角色:AI绘画中的"画师",负责最终图像生成
  • Diffusion Models (扩散模型)

    • 全称:Denoising Diffusion Probabilistic Models (DDPM, 去噪扩散概率模型)
    • 功能:通过逐步去噪生成图像
    • 应用:高质量图像生成、图像编辑
    • 特点:目前文生图主流技术
  • GAN (Generative Adversarial Networks, 生成对抗网络)

    • 含义:生成式(Generative)+ 对抗(Adversarial)+ 网络(Networks)
    • 功能:生成器与判别器配合生成图像
    • 应用:风格迁移、图像增强
    • 特点:生成质量高但训练不稳定

2. 文本理解模型族

  • T5 (Text-To-Text Transfer Transformer)

    • 含义:文本到文本(Text-To-Text)+ 迁移(Transfer)+ Transformer
    • 功能:文本转换与理解
    • 应用:提示词理解、文本特征提取
    • 角色:AI绘画中的"翻译官"
  • BERT (Bidirectional Encoder Representations from Transformers)

    • 含义:双向(Bidirectional)+ 编码器(Encoder)+ 表示(Representations)+ 来自(from)+ Transformers
    • 功能:双向文本编码
    • 应用:语义理解、特征提取
    • 特点:强大的文本理解能力

3. 多模态模型族

  • CLIP (Contrastive Language-Image Pre-training)
    • 含义:对比(Contrastive)+ 语言-图像(Language-Image)+ 预训练(Pre-training)
    • 功能:图文对齐与匹配
    • 应用:图像检索、零样本学习
    • 角色:AI绘画中的"校对员"

二、技术概念篇 💡

1. 基础概念

  • LS (Latent Space, 潜在空间)

    • 含义:潜在(Latent)+ 空间(Space)
    • 定义:模型学习到的数据表示空间
    • 作用:实现图像生成和编辑
    • 特点:连续可操作
  • Embedding (嵌入)

    • 全称:Vector Embedding(向量嵌入)
    • 定义:将输入转化为向量表示
    • 作用:连接不同模态的桥梁
    • 应用:文本理解、图像特征提取

2. 学习方法

  • ZSL (Zero-shot Learning, 零样本学习)

    • 含义:零(Zero)+ 样本(shot)+ 学习(Learning)
    • 定义:无需专门训练即可完成新任务
    • 优势:灵活性强,适应性好
    • 应用:CLIP模型的核心能力
  • TL (Transfer Learning, 迁移学习)

    • 含义:迁移(Transfer)+ 学习(Learning)
    • 定义:利用预训练模型解决新任务
    • 优势:减少训练成本,提高效果
    • 应用:模型微调、风格迁移

三、应用技巧篇 🎯

  • Style Transfer(风格迁移)

    • 含义:风格(Style)+ 迁移(Transfer)
    • 原理:将参考图片的风格应用到目标图片
    • 应用:艺术创作、图像美化
    • 技巧:选择合适的参考图片很关键
    • 类型:
      • NST (Neural Style Transfer):神经风格迁移
      • AST (Adaptive Style Transfer):自适应风格迁移
      • RST (Real-time Style Transfer):实时风格迁移
  • Image-to-Image (图像到图像转换)

    • 含义:图像到图像(Image-to-Image)
    • 功能:图像转换、修复、编辑
    • 应用:图像修复、风格迁移
    • 特点:需要参考图像指导
  • Checkpoint(检查点)

    • 含义:模型检查点
      • 用途:保存模型状态
    • 特点:
      • 完整模型存储
      • 可迁移使用
      • 版本控制

四、工具与框架篇 🛠️

1. 开源框架

  • ComfyUI (Comfortable User Interface)

    • 含义:舒适的(Comfortable)+ 用户界面(User Interface)
    • 类型:节点式工作流工具
    • 特点:
      • 可视化节点编辑
      • 支持复杂工作流
      • 高度自定义能力
      • 应用:
        • 多 ControlNet 串联
        • 局部重绘
        • 自定义生成流程
  • ControlNet ( 控制网络)

    • 含义:控制(Control)+ 网络(Network)
    • 功能:通过条件图像控制生成
    • 输入类型:
      • 线稿(Sketch)
      • 深度图(Depth Map)
      • 姿态图(Pose)
      • 边缘图(Edge)
      • 分割图(Segmentation)
    • 应用:精确控制生成图像的姿势、结构等
    • 特点:高度可控,适用于复杂场景
  • Hypernetwork(超网络)

    • 含义:超(Hyper)+ 网络(Network)
    • 功能:通过小型网络调整主模型的权重
    • 应用:模型微调、风格定制
    • 特点:轻量级,适合特定任务
  • Dreambooth

    • 含义:梦境(Dream)+ 展位(Booth)
    • 功能:通过少量特定主题图像训练模型生成个性化内容,同时保持模型原有能力
    • 应用:个性化肖像生成、特定物品复现、品牌视觉定制等
    • 特点:需要3-5张高质量的目标主题图像,会同时使用正则化图像来维持模型性能
  • Lora (Low-Rank Adaptation)

    • 含义:低秩(Low-Rank)+ 适应(Adaptation)
    • 功能:通过低秩矩阵调整模型权重,实现高效微调
    • 应用:模型微调、风格迁移
    • 特点:高效、轻量级
  • Textual Inversion(文本反转)

    • 含义:文本(Textual)+ 反转/逆向(Inversion)
    • 功能:学习将特定概念或风格映射到模型的文本嵌入空间中
    • 应用:自定义风格词、概念词的生成
    • 特点:只需少量参考图像,训练成本较低

2.技术参数与设置 ⚙️

  • Prompt Engineering ( 提示词工程)

    • 含义:提示(Prompt)+ 工程(Engineering)
    • 定义:设计优化提示词以获得理想结果
    • 要素:关键词、权重、否定提示词
    • 技巧:多尝试、积累经验
  • CFG (Classifier Free Guidance, 无分类器引导)

    • 含义:无分类器(Classifier Free)+ 引导(Guidance)
    • 定义:控制生成图像与提示词的匹配程度
    • 应用:调整生成图像的质量和相关性
    • 参数:数值越大,图像越符合提示词描述
  • Samplers

    • 种类:
      • Euler a:欧拉祖先采样器
      • DPM++: Dynamic Prediction Model改进版
      • DDIM: Denoising Diffusion Implicit Model
      • K_LMS: Karras Linear Multistep
      • UniPC: Unified Predictor-Corrector
    • 选择建议:
      • 速度优先:Euler a
      • 质量优先:DPM++
      • 平衡选择:DDIM
  • Inpainting(局部重绘)

    • 含义:局部图像重绘
    • 功能:指定区域重新生成
    • 操作方式:
      • 蒙版绘制
      • 区域选择
    • 应用:
    • 局部修改
    • 缺陷修复
    • 内容替换
  • Steps(步数)

    • 含义:采样步数
    • 范围:通常20-50
    • 作用:决定细节生成程度
    • 建议:
      • 粗略生成:20步
      • 精细生成:50步
      • 常用设置:30-40步
  • Batch Size(批次大小)

    • 含义:每批次生成图片的数量
    • 应用:控制并行生成数量
    • 示例:设置为2时每次生成2张图片
    • 建议:根据设备性能调整
  • Width and Height(宽度和高度)

    • 含义:生成图片的尺寸参数
    • 基准:SD 1.5基于512*512训练
    • 注意:偏离基准可能导致异常
    • 建议:优先使用标准尺寸
  • Batch Count(批次数量)

    • 含义:生成图片的总批次数
    • 计算:总图片数 = Batch Size × Batch Count
    • 示例:Size=2, Count=3 将生成6张图片
    • 用途:批量生成多组图片
  • Seed(种子值)

    • 含义:图片生成的随机种子
    • 功能:控制图片内容的确定性
    • 设置:
      • -1:使用随机种子
      • 固定值:重现特定生成结果
    • 应用:图片再现与风格复制

📝 总结

  • 生成模型 是 AI 绘画的“画师”,负责将潜在表示解码为图像。
  • 文本编码器 是“翻译官”,将自然语言转化为机器语言。
  • 多模态模型 是“校对员”,确保图像与文本描述一致。
  • 高级技术 如 Hypernetwork、Dreambooth、Lora 和 ControlNet 提供了更精细的控制和定制能力。

🔄 更新记录

  • 2025.01.20:初版发布,建立基础框架
  • 2025.01.20:补充各术语的完整英文解释和缩写来源
  • 2025.01.21:新增 Hypernetwork、Dreambooth、Lora、ControlNet 等高级技术术语
  • 2025.02.11:新增 Textual Inversion
  • 待更新:

📢 交流与反馈

  • 如果你对某个术语特别感兴趣,欢迎在评论区留言
  • 如果你发现新的重要概念,也请告诉我们
  • 让我们一起完善这份指南!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

X_taiyang18

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值