一文读懂Stable Diffusion（小白向）

最新推荐文章于 2024-09-27 10:08:13 发布

程序员王饱饱

最新推荐文章于 2024-09-27 10:08:13 发布

阅读量2k

点赞数 16

分类专栏： Stable Diffuison应用教程 AI绘画文章标签： stable diffusion AI作画人工智能 AI绘画

本文链接：https://blog.csdn.net/weixin_55154866/article/details/139287369

版权

AI绘画同时被 2 个专栏收录

270 篇文章 9 订阅

订阅专栏

Stable Diffuison应用教程

243 篇文章 2 订阅

订阅专栏

什么是Stable Diffusion

Stable Diffusion直译为稳定扩散，理解稳定扩散之前先通过两张图片介绍一下什么是前向扩散和逆向扩散。

所谓前向扩散（forward diffusion）过程就是向训练图像中不断地添加噪声，从而使其逐渐变为一张毫无意义的纯噪声图。

经过前向扩散猫的图像变成了随机噪声

反过来，逆向扩散（Reverse Diffusion）过程是从一个随机噪声图像开始恢复出猫图像的过程。

通常扩散模型包含前向扩散和逆向扩散两个过程（如下图上下两个部分）。

因此，Stable Diffusion可以理解为从一张完全高斯噪音开始，根据用户输入的要求，逐步剔除噪音，直到产生出用户所要图片的过程。

它的核心是如何降噪（降噪模型），而降噪模型的核心是噪声预测器（根据用户文本输入，预测噪声），即高斯图片->逐步减去噪声->得到用户所需图片。

这个过程里面一共用到了图像编码器、文本编码器、扩散模型、图像解码器四个神经网络模型。

扩散模型：上图中下部分，用户输入提示词（加条件），降噪模型根据噪声预测器去除噪声
编码器：上图中红色色块，文本编码器将文本指令转换为计算机可以理解的数字，图像编码器将图像转换为潜在空间中的向量，图像解码器将图像从潜伏空间翻译成像素

功能列表

文生图
修复图片
扩展图片
图生图

常见功能模型

在Stable Diffusion中，基于训练方式的不同，分为Checkpoint、LoRA、Textual Inversion、Hypernetwork

通常也分为大模型和小型模型（微调大模型）

Checkpoint 大模型

Checkpoint 是 Stable Diffusion 中最重要的模型（也称主模型或者基础模型），模型后缀一般为 .ckpt 或者 .safetensors

主模型在使用WebUI时左上角进行切换。

LoRA 和 LyCORIS 小模型

LoRA 和 LyCORIS 都属于微调模型，一般用于控制画风、控制生成的角色、控制角色的姿势等等。LoRA 和 LyCORIS 的后缀均为 .safetensors

WebUI中点击左侧的小红灯，然后在LoRA菜单中点击使用。也可以直接使用Prompt调用。

Textual Inversion 小模型

Textual Inversion是文本编码器模型，用于改变文字向量，后缀为 .pt 或者 .safetensors

WebUI小红灯中的Textual Inversion，也可以使用Prompt调用。

Hypernetworks 小模型

Hypernetworks 模型用于调整模型神经网络权重，进行风格的微调。

ControlNet

ControlNet是一个及其强大的控制模型，它可以做到画面控制、动作控制、色深控制、色彩控制等等。使用时需要安装相应的扩展才可（Extensions页面搜索 ControlNet 扩展，然后 Install 并 Reload UI），后缀为.safetensors

VAE 类似滤镜

VAE 模型一般用于图片亮度和饱和度的修正、画面较正和以及补光等。一般在绘图时如果出现图片亮度过低、发灰等问题时就需要用到。后缀为 .pt 或 .safetensors

VAE使用可能的入口

Settings 页面找到 SD VAE 菜单切换
Quicksettings list 配置
WebUI 的顶部

CodeFormer

CodeFormer 模型一般用于图片的修复，比如提高图片的分辨率、将黑白照片修改成彩色照片、人脸修复等等。

Extras 菜单中使用

操作界面演示

区域1、模型选择区

区域2、正向提示词

区域3、反向提示词

区域4、参数调整区

常用设置为区域4左上角采样器、右上角采样步数、左下角图像生成种子以及其上的提示词引导系数
中间区域的长宽也是影响图像出图效果的常见设置

区域5、生成按钮

区域6、小红点 - 打开lora设置等

区域7、图像展示区

区域8、VAE模型选择区

区域9、中文提示词输入插件

AI，有手就行^_

模型：momoko
正向词：film portrait photography, 1girl, bare shoulders, wavy shoulder-length hair, serene, calm, (realistic detailed eyes, natural skin texture, realistic face details), soft dramatic lighting, depth of field, bokeh, vibrant details, finely detailed, hyperrealistic, 35mm film, hazy blur, filmg, lora:Style_FilmG3:0.8,tifa,lora:tifa_v2.3:0.8
反向词：cartoon, anime, sketches,(worst quality:1.3),(low quality:1.3), (deformed, distorted, disfigured), bad eyes, wrong nose, weird mouth, strange ears, bad anatomy, wrong anatomy, amputation, extra limb, missing limb, floating limbs, (bad teeth, mutated hands and fingers), disconnected limbs, mutation, ugly, disgusting, EasyNegative, bad_prompt_version2