一秒入门Stable Diffusion免安装攻略

最新推荐文章于 2025-01-08 16:43:52 发布

Python小炮车

最新推荐文章于 2025-01-08 16:43:52 发布

阅读量1.1k

点赞数 13

文章标签： stable diffusion

本文链接：https://blog.csdn.net/xzz_777c/article/details/138862442

版权

本文旨在对AI工具的祛魅，用一种类似“捷径”的方法，让你快速进入SD这股学习热潮。

掌握技能的最好方法是输出。文章前，给大家介绍一下我个人拟定的学习Stable Diffusion的路径曲线。

理解基本的参数模型提示词的用途，先把绘图的流程跑通，试着输出大概能看得过去图。
研究模型和提示词，了解提示词使用的规则、分步和融合写法，以及混用lora模型，到这一步，可以对图进行针对性的优化了，学习针对性地优化提示词控制输出你想要的图。
进阶功能学习，图生图、局部重绘、control net插件的使用等。
训练自己的lora模型。

网上很多关于stable diffusion的万字教程，然而很多小伙伴都被复杂且高配置要求的本地部署安装这一步劝退了。工具只是一种手段，如何用它达成目的，才是学习的意义。笔者这里跳过了繁琐的本地部署安装，使用了网易云端SD（内测阶段目前每天有10次免费出图次数，进阶用法需付费开通使用）。https://ke.study.163.com/artWorks/painting注册登录以后，点击顶部的“创作studio”，即可打开云端SD界面。对比过主界面，基本上1:1还原了本地SD的功能，甚至自带prompt汉语翻译，操作可以无缝对接。

以下为学习SD的基本框架，供君参考。

在这里插入图片描述

一、原理简析

diffusion的含义是扩散。可以简单理解为AI先把一张图片模糊，也就是增加噪声，然后再降噪，逆向扩散，在图片变得极为模糊之后，我们就可以从原本的画面中抽离，然后想象新的画面。这就是整个扩散的过程。AI就是通过把投喂给它的无数图片，通过这样不断增加增加噪声的方式进行扩散，AI就可以不断学习这些抽象的内容，并不断理解了这个过程。AI每学习一张图，就吸取了一张图的图像特征，且与原图进行关联。理解这个基本原理，后续进阶也能更方便我们训练出想要的模型。

二、关于模型常用的模型只有两种。

即大模型Checkpoint和微调模型Lora。模型可以理解为具备共同画风或风格的绘画作品。目前，我们所使用的模型大多是由他人精心打造而成。

1、大模型（图示红框内）

大模型也叫主模型是SD能够绘图的基础模型。它决定了一张图的主要风格。安装完SD软件后，必须搭配基础模型才能使用。不同的基础模型，其画风和擅长的领域会有侧重。SD中的大模型目前也大致分为三种：真实系、二次元、2.5D。（网易版则提供6个免费大模型）选定了大模型就确定了你接下来输出绘画的风格。

在这里插入图片描述

2、Lora模型

通常也称之为微调模型，用于满足一种特定的风格，或指定的人物特征属性。如果说大模型是关乎一个房屋的主梁，那么Lora就是主梁上的雕刻，让细节更丰富。很多大模型都有适配的Lora，我们可以一起下载使用，也可以根据自己对于Lora的理解叠加使用。

在这里插入图片描述

3、其他主要模型VAE：

这个模型是一种变分自编码器，主要功能是滤镜加微调，能够解决绘图图片的灰暗和模糊问题，让图片色彩更加丰富。一般我们选择840000就可以满足绝大部分需求。Embeddings：它是一个文本反转模型，也属于微调模型。通过仅使用的几张图像，就可以向模型教授新的概念。用于个性化图像生成。与lora模型一样，Embeddings也必须配合基础模型使用。Lycoris：它是一个类似Lora的模型，或者直接可以归为Lora，也是一个微调模型。不同的是训练方式与常见的lora不同，但效果差不太多。主要侧重于调整画风。（网易版做了省略，直接归为Lora）。

三、prompt提示词

当我们选择了大模型之后，就可以给Ai输入提示词了。提示词（prompt）是用于激发或引导AI生成特定内容的关键词或短语。与MJ 不同的是，SD中增加了反向提示词，这能增加输出的精准度。在这里插入图片描述

正向提示词：即你想要图片里出现什么元素。反向提示词，即你不希望图片里出现什么元素。一个好的图片的提示词可能有几百个单词，虽然prompt不一定越多越好，但是多些一点描述词多数时候比少一点要好。（同MJ使用逻辑相通）。需要注意的是这里面涉及到提示词的规则（英文、词组、短句、分隔），提示词的内容（内容型提示词、标准化提示词）、权重、进阶的语法等。

在这里插入图片描述

笔者专门整理了提示词使用大法，分为使用规则和通用模版，后续会有专门文章探讨

四、图生图

在文生图的内容里，我们借助于提示词prompt让AI明白我们想要画什么。但是Lora有时候还是不能很好的达到我们的要求。我们想要让AI更好的理解我们的意思，我们就可以借助图生图加大对AI的约束。功能相当于喂图，以便更能达到我们的需求。

操作流程：

1、导入图片：可以直接把图片使用鼠标拖进来，也可以点击上传然后进行选择。

在这里插入图片描述

2、写入提示词和文生图一样，图生图也是需要提示词的。虽然有了图片作为参考，我们可以简单使用一个词组，比如：1girl。但这样生成的图片多半不能如你所愿。想要生成更满足自己想法的图片，肯定需要提示词更精确。

3、调整参数图生图的参数基本和文生图的参数数值设置一样。比如：采样器、采样步数等。-采样方法这里的原理比较复杂，笔者这里直接抛出结论：一般情况下使用DPM++ 2M或DPM++ 2M Karras或UniPC，想要一些变化，就用Euler a、DPM++ SDE、DPM++ SDE Karras、DPM2 a Karras。-迭代步数这里指的是sd用多少步把你的描述画出来。这里先给出结论，一般20到40步就足够了。迭代步数每增加一步迭代，都会给AI更多的机会去比对提示和当前结果，并进行调整。更高的迭代步数需要更多的计算时间。但并不意味着步数越高，质量越好。-重绘幅度需要我们关注的是重绘幅度这个参数，重绘幅度顾名思义是把图片改变的幅度，不过一般过小过大都不合适，一般适合在0.6-0.8之间，可以多尝试几次选择合适自己的数值。-放大倍率这个比较好理解，就是指最终的图原来图的分辨率的比值。例如，默认生成的图是512*512，设定为2倍后，最终产出的图就是1024_1024。
在这里插入图片描述

4、种子的应用我们每生成一个图片，都会生成一个随机种子。我们使用同一个种子就可以生成相似度更高的图片。假如一个图片，我们喜欢生成的细节，但不喜欢背景。那么我们就可以使用种子去约束图片的生成。点击循环按钮，我们就使用上一张细节好的图片的种子作为出图的参照。或者点击我们其他需要的图片，在下面的数值中找到seed后面的一串数字，就是这张图的种子。然后通过相同种子，再加上一些提示词的约束，生成我们想要的图片。

在这里插入图片描述

五、局部重绘

虽然我们给了AI上述的一步又一步的约束，但是AI还是会出错，或者某些细节不能达到我们的要求，但是其中一大部分是我们觉得还满意的。最常见的问题有：混乱的四肢、错位的环境等等。这个时候我们就可以选中这张图的一部分，然后告诉它，这一部分重画一下。这就需要用到SD绘画中的局部重绘功能。1、首先把图片上传到图生图的局部重绘中，(如果这副图是刚生成的话，可以直接在图片下方点击局部重绘，也会直接跳转图生图)，因为局部重绘属于图生图的一个子功能。2、当图片进入到局部绘制中，其他的设置区域基本保持一致。3、我们把鼠标放在图片右上角的笔上，然后把想要涂改的地方涂黑，滑块可以改变笔的大小。画错了也可以点击图片右上角的撤销。4、重绘幅度一般设置在0.7-0.8之间。5、点击生成，就可以看到重绘后的图片了。

关于此部分操作案例后续会有专门文章探讨。

六、ControINetControINet

翻译过来的意思就是——控制网。他本质上是一个stable diffusion的扩展插件。ControINet可以通过对图片的检测，去识别它的线条（canny、lineart、soft edge、mlsd/仅直线、scribble）、人物姿势（open pose）、空间深度（depth）、物品类型（seg）、风格颜色（shuffle、reference、normal、t2ia）、重绘（Inpaint、tile/加入细节）、特效（ip2p）。

在这里插入图片描述

这个功能强大之处在于可以完全掌控图形，更符合商用需求。
ControINet的参数解析1、首先，自然是我们需要点击启用。这样才会使得ControINet在生成图片进行控制。2、低显存模式：如果电脑配置比较低的话，生成的图片清晰度又比较高，可以启用，生成图片会慢一些。3、Pixel Perfect：高像素模式。建议选用。4、Allow Preview：预览模式。会在你上传的图片右边再出现一个小框，出现生成之前的预览图片。5、type：就是ControINet的不同处理模型，我们控制姿势就是使用open pose模式。剩下的模型会在之后的文章详细解释。6、weight：是控制权重。一般默认为1。可以根据需要进行调整，但一般不要超过1±0.5。7、Starting Control Step和Ending Control Step：这是ControINet起作用的开始时间和结束时间，一般默认0-1即可。8、Control Mode：三个生成算法模式。一般选择Balanced均衡模式。9、Resize Mode：这个类似我们前面学过的图片拉伸，一般默认Crop and Resize模式就可以。
五种常用ControINet控制模型的功能open pose——动作姿势、depth——深度、canny——边缘检测、soft edge——柔和边缘、scribble——涂鸦ControINet还有的模型有十几种之多，这里列举的是比较常用的五种模型，具体案例详解会在后续文章输出探讨。七、小结篇幅限制，文章只介绍最基本的操作，教大家先把AI绘图的整个流程跑通。如果反馈还行，后续会补充一些进阶的操作。笔者也是新手入门，处在持续学习的状态，如有错误欢迎指正。

文章最后附上大佬们整理的可本地部署链接，欢迎自取：win安装包：https://www.bilibili.com/video/BV17d4y1C73R/?spm_id_from=333.788.video.desc.click&vd_source=bd8f1862d445f4e01d7c1f49857dd474mac m芯片安装教程：https://www.bilibili.com/video/BV1Kh4y1W7Vg/?spm_id_from=333.337.search-card.all.click&vd_source=bd8f1862d445f4e01d7c1f49857dd474云端部署教程：https://www.bilibili.com/video/BV1po4y1877P/?spm_id_from=333.337.search-card.all.click&vd_source=bd8f1862d445f4e01d7c1f49857dd474模型下载网站https://civitai.com/https://huggingface.co/识别本地模型类别：https://spell.novelai.dev/提示词辅助网站1. https://prompttool.com/NovelAI?goLogin=12. https://wolfchen.top/tag/3. https://moonvy.com/apps/ops/4. http://poe.com/ChatGpt5. https://magic-tag.netlify.app/#盲盒lora模型：https://civitai.com/models/25995/blindbox盲盒对应的基础底模型：https://civitai.com/models/7371?modelVersionId=46846