【AIGC从零开始】AIGC小白学习心得第一讲：二维平面的文生图、图生图

Humburger_Sun

于 2024-08-08 17:16:07 发布

阅读量943

点赞数 8

文章标签： AIGC

本文链接：https://blog.csdn.net/weixin_57625762/article/details/140959280

版权

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言
一、主流网络模型
二、AI生图工具整理
三、提示词（prompt）

前言

近段时间AIGC发展非常迅速，尤其在艺术领域的发展全面开花，各位AI绘画师各显身手，百花齐放。小编经过一周多的学习初窥门径，希望把这些工作学习心得记录下来，同各位同行一同成长。
此外，除了相关信息的搜集整理，小编最近学习应用主要围绕comfyui这种中间层图片生成平台，也会记录相关应用案例。

提示：以下是本篇文章正文内容，下面案例可供参考

一、主流网络模型

1.深度生成模型

深度生成模型是指能够从现有数据对象中，学习数据分布并生成新的结构化数据对象的一类广泛的人工智能方法，属于无监督学习的范畴。在本节中，我们主要研究在数据合成中常用的几种深度生成模型。

（1）GAN

Ian J. Goodfellow等人于2014年提出一种生成对抗网络(GANs)，GANs是一种先进的深度生成模型，通过对抗过程进行训练，可以生成遵循原始数据集底层数据分布的新型合成样本。GANs模型包括两个神经网络模块:判别器和生成器。生成器的目标是生成接近真实数据的数据，而判别器的目标是将假数据(生成器生成的)与真实数据区分开来。它执行二值分类任务，将训练集中的真实数据作为正样本;生成的数据(由生成器生成)作为负样本。GAN模型存在难训练、模式崩溃、无训练进度指标等问题，在过去的几年里，它的结构经过了不断的调整和改进，现在是一种强大的深度生成模型。
在这里插入图片描述

2017年，M.Arjovsky等人提出了Wasserstein生成对抗网络，这是GAN的一种流行变体W-GAN。其改变了生成器和判别器的目标函数,并对判别器施加 Lipschitz 约束以限制判别器的梯度，旨在增强学习的稳定性，加速训练过程，并摆脱模式崩溃等问题。

总结完了GAN的迭代历程，聊点通俗易懂的，GAN到底是怎样工作的呢？为什么叫它生成对抗网络？

引用Sharon Zhou 老师的比喻：
GAN给了我们两个不同的网络，一个是艺术伪造者，另一位是检察员。伪造者尽可能画出漂亮的画，检察员为伪造者提供反馈，在对抗生成的过程中，检察员会判别哪些是真实的、哪些是伪造的，然后把结果反馈给伪造者。随着时间的推移，伪造者的水平就会越来越高，生成的画也越来越逼真，二者在不断对抗中共同成长，最后也就成就了GAN的强大功能。

（2）VAE

李宏毅老师的教程视频：https://www.bilibili.com/video/av15889450/?p=33
接下来，我们讨论一种以以自编码器结构为基础的深度生成模型VAE，自编码器在降维和特征提取等领域应用广泛，它包含两个神经网络模块:编码器和解码器。编码器的目标是将数据对象转换为连续的潜在变量；然后解码器将隐变量作为输入特征，重构数据对象。
VAE模型架构：
在这里插入图片描述
几种重要的VAE结构总结在下表所示：

方法名称	核心方法	创新点
IWAE	构造比VAE更紧的变分下界形式,通过弱化变分下界中编码器的作用提升变分推断的能力	后验分布的假设更符合真实后验分布
CVAE	在输入数据中加入 one-hot 向量用于表示标签信息	使VAE实现监督学习
DC-IGN	用卷积层和池化层替代原来的全连接网络	保留图片样本中的局部相关性
AAE	构造聚合的伪先验分布匹配真实分布	使模型可以学习出后验分布
LVAE	利用多层的隐变量逐层构造更复杂分布，在变分下界中使用预热法	逐层、递归的修正隐变量的分布, 使变分下界更紧

具体想要探究机理，可以去看这篇，讲的很清晰，在此不再赘述：https://blog.csdn.net/a312863063/article/details/87953517

（3）Diffusion Models

Diffusion Models（扩散模型）于2015年被提出，但是并没有得到广泛的关注，直到 2020 年后，扩散模型才得到广泛的关注，像openai的DALL·E2和谷歌的Imagen都是基于扩散模型完成的，2022 年 8 月基于扩散模型设计的 Stable Diffusion 出现后，扩散模型直接爆火。

扩散模型与VAE的原理有些相似，由前向扩散和反向扩散过程组成。前向扩散过程是一个多步骤的过程，逐渐向样本中添加少量高斯噪声，直到变成白噪声，常用的步数值为 1000。反向扩散过程也是一个多步骤过程，它反转正向扩散过程，将白噪声带回到图像中。反向扩散过程的每一步都由神经网络执行，并且其步骤数与正向过程相同。

简单来讲，扩散模型的根本原理就是通过连续添加高斯噪声破坏训练数据，再通过反转噪声的过程来学习恢复数据。
训练与测试的算法
在这里插入图片描述

引用两张更加形象的图：

训练过程
在这里插入图片描述

图像生成过程
在这里插入图片描述

小结一下，现在在用的各种主流生成模型，都是基于以上三种基础深度生成模型，他们的方式各不相同，各有各自的优劣，相关的参考资料如下，可供深度挖掘：

Generative Adversarial Nets. Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio — https://arxiv.org/pdf/1406.2661.pdf

Auto-Encoding Variational Bayes. Diederik P Kingma, Max Welling — https://arxiv.org/pdf/1312.6114.pdf

Deep Unsupervised Learning using Nonequilibrium Thermodynamics. Jascha Sohl-Dickstein, Eric A. Weiss, Niru Maheswaranathan, Surya Ganguli — https://arxiv.org/pdf/1503.03585.pdf

在这里插入图片描述

2.CLIP

为什么要把CLIP单独拿出来讲一讲呢？
总结一句话，CLIP可以插入任何一个生成模型，达到使用语言来引导图像生成的目的。
我们在comfyui的应用中就是将CLIP插入不同的网络，生成具有不同风格艺术的图片。
CLIP通过借助类别语言信息，将知识迁移到未知类别的图像处理，类似于模拟人类认知事物的过程。

在这里插入图片描述
上面一张图总结了CLIP的方法，在训练时，CLIP联合训练一个图像编码器和一个文本编码器来预测一批(图像、文本)训练样本的正确配对。在测试时，学习的文本编码器通过嵌入目标数据集的类的名称或描述来合成零样本线性分类器。
原文链接：https://www.semanticscholar.org/paper/Learning-Transferable-Visual-Models-From-Natural-Radford-Kim/6f870f7f02a8c59c3e23f407f3ef00dd1dcf8fc4
github链接：https://github.com/openai/CLIP

CLIP的开源讲解已经很详尽了，想深入了解的话大家可以自行搜索一下。
附一位大佬的讲解：https://blog.csdn.net/weixin_44791964/article/details/129941386

二、AI生图工具整理

简单了解过基础的深度生成模型后，我们可以幻想自己是一位AI绘画师，直接上手体验一下AIGC应用层的相关软件与网页，在这里为大家整理了一下国内外较为主流的软件与网页，小编也是探索了10天的comfyui，下面的心得记录也会主要围绕comfyui。

1.Midjourney
目前最强的AI绘画工具，照片风格多样、操作简单质量高。最近小编很喜欢他的一个功能，它的参数调节中cref设置为100能够固定住人物的形象，如果在comfyui中也能调参实现这一功能，希望大家能不吝赐教。
Midjourney是付费的，在应用上更容易上手，但是可定制化程度相对较低。
在这里插入图片描述
2.Stable Diffusion
上面我们介绍了Midjourney，Stable-Diffusion是目前市面上另一款比较权威的绘画工具，就是一种潜在扩散模型，SD开源免费，上手难度和学习成本相对较大，但可定制化程度也更高。
它的固定操作界面WebUI拥有固定的操作界面，使得其易于学习和快速上手，目前，它已经建立了一个成熟且稳定的开源生态系统。
在这里插入图片描述

ComfyUI 是一个为 Stable Diffusion 专门设计的基于节点的图形用户界面（GUI）。它使用户能够通过链接不同的节点来构建复杂的图像生成工作流程。
在这里插入图片描述

3.DALL·E 2
出自OpenAI
在这里插入图片描述
4.Rodin
3d生成方案
https://hyperhuman.deemos.com/

5.其他
还有很多很多工具不再一一介绍，整理如下：
Runcomfy
Kohya
Jasper Art
Hotpot ai
InvokeAI
Forge
NightCafe
Fooocus
NijiJourney
StableSwarmUI
FaceFusion
Dreamup
StarryAI
Leonardo.AI
Craiyon
国内：
文言一心、KIMI、海鲸AI、6pen art、Draft、TIAMAT AI

三、提示词（prompt）

了解了深度生成模型，体验了绘画工具，下面聊一聊决定图片生成质量的关键——提示词。

小编之前心里一直感觉这个提示词很玄学…
但是后来阅读了这位大佬的这篇文章，对照着它的一些方法实验了一下，发现提示词与生成内容之间还是有迹可循的：https://blog.csdn.net/snans/article/details/129966711?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522172310599816800225580062%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id=172310599816800225580062&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2_alltop_positive~default-1-129966711-null-null.142^v100pc_search_result_base9&utm_term=stable%20diffusion%E6%8F%90%E7%A4%BA%E8%AF%8D&spm=1018.2226.3001.4187
整理如下：
提示词分为正向提示词和反向提示词，用以指导AI生成所需和不需的内容。
词缀的权重会影响生成结果，权重默认从左到右递减。正确的词缀顺序和语法能有效地展现预期画面。提供了多种符号（如逗号、括号等）来调整词缀权重，以优化生成效果。同时文中还介绍了使用方括号和其他符号来实现复杂的分布和交替渲染。
提供了tag自动补齐插件和反向提示词插件，最后汇总了不同类别的提示词。

最后给大家推荐两个提示词网站：
AI Creator（人物为主）：https://ai-creator.net/arts
NovelAI：https://thereisnospon.github.io/NovelAiTag/ 教学网址：https://space.bilibili.com/6537379