AIGC文生图核心技术：StableDiffusion原理详细介绍

Python编程杰哥

已于 2024-01-15 16:42:51 修改

阅读量2.4k

点赞数 16

文章标签： AIGC stable diffusion 学习数学建模数据库

于 2023-12-21 10:09:05 首次发布

本文链接：https://blog.csdn.net/xx_nm98/article/details/135124054

版权

知己知彼，百战不怠。当AIGC要革广大白领命的论调已经甚嚣尘上时，你是否变得越来越焦躁呢？抑或它其实只是继VR、元宇宙后又一个被资本玩弄的金钱游戏呢？AI绘图究竟只是个不入流的技术玩具，还是真的会引起生产力革命？乃至取代画师？在现在这种浮躁的网络环境下，我觉得只有自己充分的了解了它，才能拥有一个靠谱的判断。

Stable Diffusion是一个深度学习模型，在这篇文章中我们将会深入其内部了解其究竟是如何创作图像的。

为什么你一定要对其工作原理有所了解呢？除了其本身就是个非常值得了解的内容外，理解它的内部运作也将会使你成为一个更好的AI绘画艺术家。你将可以合理的运用这个工具来得到更加精确的图像。

Stable Diffusion 能做什么

以最简单的形式来说，Stable Diffusion是一个文本到图像的生成模型。给它一个文本指令作为输入，它将返回给你一张与输入指令匹配的图像。

在这里插入图片描述

扩散模型（Diffusion Model）

稳定扩散模型（Stable Diffusion）属于深度学习模型中的一个大类，即扩散模型。它们属于生成式模型，这意味着它们是被设计用于根据学习内容来生成相似的新的数据的。对于稳定扩散模型而言，新的数据即为图像数据。

为什么称之为扩散模型？因为模型中使用的数学看起来与物理学中的扩散公式非常相似。我们来了解一下这个模型的理念。

假设我们只使用猫和狗这两类图像来训练这个稳定扩散模型。如下图所示，图中左侧曲线的两个峰值代表了猫与狗这两组图像。

在这里插入图片描述

前向扩散（Forward diffusion ）

所谓前向扩散（forward diffusion）过程就是向训练图像中不断地添加噪声，从而使其逐渐变为一张毫无意义的纯噪声图。在我们的例子中，前向扩散过程会将猫与狗的图片转变为噪声图。最终你将无法从得到的噪声图中分别出原来的图究竟是猫还是狗（这点很重要）。

这就好比往一杯水中滴入一滴墨水。墨滴将在水中扩散，在几分钟之后，它将随机均匀的遍布于整杯水中，你将再也无法从这杯水中看出原来的墨滴究竟是从杯子的中心还是边缘滴入的了。

下图演示了一张图像经由前向扩散逐渐变为纯噪声图的过程。

在这里插入图片描述

逆向扩散（Reverse diffusion）

现在来到神奇的部分了。如果我们能够逆转扩散的过程会怎样呢？就像影片倒带一样，在时间线上逆向移动，那我们最终将会看到墨滴最初是从哪里滴落的了。

在这里插入图片描述
从一张完全无意义的噪声图，逆向扩散过程使其还原为一张猫【或】狗的图像，这就是逆向扩散的核心理念。

从技术上来说，每个扩散过程都有两个分量：（1）漂移或引导的方向；（2）随机的方向。逆向扩散会将结果导向猫或者狗的图像，但并不会是二者之间的图像。这也是为什么我上面说，逆向扩散的结果将会是猫或者狗。

训练是是如何完成的

逆向扩散的理念是如此的高明与优雅，但是真正有价值的问题是，怎么来实现它呢？

为了将扩散过程逆转，我们需要知道到底有多少噪声被添加到了图像中。而这个问题的答案，将会由一个经过训练的神经网络模型来预测解答。在Stable Diffusion模型中，这个模块被称为噪声预测器（noise predictor）。训练的过程如下：

选择一张训练图片，比如一张狗或猫的图像

生成一个随机的噪声图

将这张噪声图像原始训练图片中添加特定次数，使图像变得嘈杂

以正确答案为基准，通过调试参数，训练噪声预测器最终能够识别出究竟有多少次噪声被添加到了这张图片中。

在这里插入图片描述
在训练完成后，我们将得到一个能够估计出有多少噪声被添加到了一张图像中的噪声预测器。

逆向扩散（Reverse diffusion）

现在我们有了一个噪声预测器，我们将怎样使用它呢？

我们将首先生成一张完全随机的图像，并让噪声预测器告诉我们这张图像中被添加了哪些噪声。随后我们就可以将噪声预测器给出的噪声图像从原始图像中剔除出去【译注：即反向的图像叠加操作】。重复以上步骤几次，我们即可以得到一张猫或是狗的图像了。

在这里插入图片描述

如何学习AIGC？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AIGC资料包括AIGC入门学习思维导图、AIGC工具安装包、精品AIGC学习书籍手册、AI绘画视频教程、AIGC实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（30天）：AI-GPT从入门到深度应用

该阶段首先通过介绍AI-GPT从入门到深度应用目录结构让大家对GPT有一个简单的认识，同时知道为什么要学习GPT使用方法。然后我们会正式学习GPT深度玩法应用场景。

GPT的定义与概述
GPT与其他AI对比区别
GPT超强记忆力体验
万能GPT如何帮你解决一切问题？
GPT表达方式优化
GPT多类复杂应用场景解读
3步刨根问底获取终极方案
4步提高技巧-GPT高情商沟通
GPT深度玩法应用场景
GPT高级角色扮演-教学老师
GPT高级角色扮演-育儿专家
GPT高级角色扮演-职业顾问
GPT高级角色扮演-专业私人健身教练
GPT高级角色扮演-心理健康顾问
GPT高级角色扮演-程序UX/UI界面开发顾问
GPT高级角色扮演-产品经理
GPT高级技巧-游戏IP角色扮演
GPT高级技巧-文本冒险游戏引导
GPT实操练习-销售行业
GPT实操练习-菜谱推荐
GPT实操练习-美容护肤
GPT实操练习-知识问答
GPT实操练习-语言学习
GPT实操练习-科学减脂
GPT实操练习-情感咨询
GPT实操练习-私人医生
GPT实操练习-语言翻译
GPT实操练习-作业辅导
GPT实操练习-聊天陪伴
GPT实操练习-育儿建议
GPT实操练习-资产配置
GPT实操练习-教学课程编排
GPT实操练习-活动策划
GPT实操练习-法律顾问
GPT实操练习-旅游指南
GPT实操练习-编辑剧本
GPT实操练习-面试招聘
GPT实操练习-宠物护理和训练
GPT实操练习-吸睛爆款标题生成
GPT实操练习-自媒体爆款软件拆解
GPT实操练习-自媒体文章创作
GPT实操练习-高效写作推广方案
GPT实操练习-星座分析
GPT实操练习-原创音乐创作
GPT实操练习-起名/解梦/写诗/写情书/写小说
GPT提升工作效率-Word关键字词提取
GPT提升工作效率-Word翻译实现
GPT提升工作效率-Word自动填写、排版
GPT提升工作效率-Word自动纠错、建议
GPT提升工作效率-Word批量生产优质文章
GPT提升工作效率-Excel自动化实现数据计算、分析
GPT提升工作效率-Excel快速生成、拆分及合并实战
GPT提升工作效率-Excel生成复杂任务实战
GPT提升工作效率-Excel用Chat Excel让效率起飞
GPT提升工作效率–PPT文档内容读取实现
GPT提升工作效率–PPT快速批量调整PPT文档
GPT提升工作效率-文件批量创建、复制、移动等高效操作
GPT提升工作效率-文件遍历、搜索等高效操作
GPT提升工作效率-邮件自动发送
GPT提升工作效率-邮件自动回复
GPT接入QQ与QQ群实战
GPT接入微信与微信群实战
GPT接入QQ与VX多用户访问实战
GPT接入工具与脚本部署实战

第二阶段（30天）：AI-绘画进阶实战

该阶段我们正式进入AI-绘画进阶实战学习，首先通过了解AI绘画定义与概述，AI绘画的应用领域，PAI绘画与传统绘画的区别，AI绘画的工具分类介绍的基本概念，以及AI绘画工具Midjourney、Stable Diffusion的使用方法，还有AI绘画插件和模板的使用为我们接下来的实战设计学习做铺垫。