AI生产力

PP_jp_chen

已于 2024-09-22 23:37:51 修改

阅读量765

点赞数 2

文章标签： AI作画

于 2024-07-30 00:04:27 首次发布

本文链接：https://blog.csdn.net/weixin_47710106/article/details/140783319

版权

原理/概念

原图->增加噪声进行图像扩散->基于模型逆运行去除噪声

checkpoints检查点：

大模型在训练过程中，到一定程度会进行存档，这个存档就是检查点，使用者可以使用检查点进行内容的生成。有ckpt和safetensors两种文件格式，后者文件大小更小效率更高。

采样器（去噪）：

采样迭代步数：理论上采样步数越高计算时间越长，画面清晰度越高

采样方法：进行图片采样的具体算法

常用采样器：euler适合插画风，DPM2M等出图速度快，SDE细节多，一般模型会有推荐使用的采样器

潜空间数据：

导出为图像数据时在模型中实际运算的数据

CLIP：

全称“对比性语言-图像预训练”，用于模型中理解图像和文本间关联的部分，当clip连接到文本条件框时，相当于将提示词框解读出来的信息转化为模型“条件”。

VAE变分自解码器：

用于将潜空间数据转换到像素空间变为图像数据，相当于生图过程中的滤镜，主要影响画面的色彩质感，很多大模型文件中自带了VAE，有些没有，若缺失VAE则需要添加合适的VAE模型以支持该模型工作。

Embeddings（嵌入式向量）：

对特征进行指向性引导，如模型中有“鸟人”的相关描述，但没有“鸟人”，则此时使用对应的embeddings模型可以对主模型中的鸟和人的信息进行融合汇总，即可得到“鸟人”相关的信息。

可以用于修复扭曲、错乱、颜色混乱、噪点、画面过灰、提示词解读偏差过大等问题。

LORA（低秩适应网络）：

对主网络进行微调的一个附加权重网络，实现风格化。训练时会分文本编码器（CLIP text encoder）和噪声预测器（组模型UNet）进行训练。

使用LoRA进行局部重绘，可以在不影响主模型产出的情况下，得到特定所需的内容，如加一个科技感的头盔。

HyperNetwork（超网络）：

用于微调生成内容的画风，一般用于绘制特定的风格，但可以被LoRA取代。

ControlNet：

通过额外的信息训练出一个附加网络，使生图更精细，可以根据线条等控制姿势、深度、色彩等

模型的输入需要使用预处理器获取需要控制的信息

种子：

模型每一次生成图片都会有一套生成的方法，该方法被记录成一个种子序列，如果固定种子值，则生成的图片在一定程度上会有一定的相似之处。

工具/链接

链接/资料

Tips

底图常用分辨率515*512,512*768

动漫风格常用采样器dpm++2m+karras，写实风常用采样器dpm++2msde+karras

常用step和cfg 20-30,4-8

提示词：

画质：best quality, ultra-detailed, masterpiece,hires,4k,unreal engine rendered

画风：插画illustration,painting,paintbrush ；二次元anime,comic,game CG；写实realistic,photograph,photorealistic

画幅视角：close-up,distant,full body,upper body,from above,view of body, wide angle

人像：soft_skin,

常用反向提示词：

通用：(worst quality:2), (low quality:2), (normal quality:2), duplicate,extra digit, blurry,

色彩：monochrome, grayscale, bad prportions,

人像：ugly, unclear eyes, morbid

人像控制： age spot, skin spots, missing arms, fused fingers,extra leg, extra limbs, mutated hands

绘画提示词权重语法：

1）给提示词套括号，每套一层()变为1.1倍，[]变为0.8倍

2）给提示词套括号后再直接定义权重，如(white flower:1.5)即白花权重为1.5倍

进阶语法：

混合：while/yellow flower 生成白色和黄色的花 milk_tea 牛奶

组合：milk and tea 生成牛奶和茶的融合

隔离：当出现多种颜色时为避免混淆在各个元素间加break black hair break white shirt

迁移：[while/red/blue] flower 循环生成白红蓝花

迭代：[hite flower:bush:0.8] 采样进程到80%前生成白花，而后生成灌木

[cloud:0.8] 采样到80%才开始生成云 [cloud::0.8] 采样的前80%生成云

提示词相关性：

stablediffusion中7-12比较安全

常用模型：

ckpt：

sd3_medium stablediffusion官方文生图模型

majicmixRealistic_v7 麦橘写实，东方面孔人像
Sampler: Euler a, Euler, restart
Steps: 20~40
Hires upscaler: ESRGAN 4x or 4x-UltraSharp or 8x_NMKD-Superscale_150000_G
Hires upscale: 2+
Hires steps: 15+
Hires denoising strength: 0.05~0.5
clip skip 2

dreamshaper_8 全能型，适合生成精美人像，科幻场景，科幻人像等

LOFI 极度写实的人像写真，媲美摄影，适合欧美面孔
Sampler: DPM++ (series) / Restart
Steps: 15-55 (35 recommended)
CFG: 2-5 (4 recommended)
The lower the CFG, the more creative the generated image may be.

MeinaMIX 动漫风格
Sampler: DPM++ SDE Karras: 20 to 30 steps.
Sampler: DPM++ 2M Karras: 20 to 60 steps.
Sampler: Euler a: 40 to 60 steps.
CFG Scale: 4 to 11.
Resolutions: 512x768, 512x1024 for Portrait!
Resolutions: 768x512, 1024x512, 1536x512 for Landscape!
Hires.fix: R-ESRGAN 4x+Anime6b, with 10 steps at 0.3 up to 0.6 denoising.
Clip Skip: 2.
Negatives: ' (worst quality, low quality:1.4), (zombie, sketch, interlocked fingers, comic) '
Negatives if you can't use Hires.fix:
'(worst quality:1.6, low quality:1.6), (zombie, sketch, interlocked fingers, comic)'

pixarStyleModel_v10 皮克斯风格

counterfeit 精致感二次元插画模型

stable_video_diffusion 图生视频模型，xt版本为25帧视频，不带xt版本为14帧视频（要求12G显存为佳）

swizz8_REALBakedVAE-fp16 画手较好的模型

LoRA：

guochaochachua 国朝插画风格lora 0-1之间

s shape 女性体态，权重越高身材越好

detail teaker 细节调整，-2到2之间，一般0.5

Blurred or sharp edges 背景清晰到虚化，权重-1.5-1.5

skin&hands(polyhedron_new_skin_v1.1) 皮肤真实质感，这款皮肤偏欧美，0.2最佳

realskin 真实皮肤，亚裔可用，0.2-0.5

LEOSAM's Clothing +/- Adjuster 衣物增减，权重越高衣物越少-0.5-1.3之间

Age slider（AS-YoungV2-neg）改变任务年龄权重值在-4-4之间，该lora不能把任务变成小孩，故实际使用权重在-1-4之间

zoom slider 镜头距离控制，权重在-7-7之间调整，权重越大越接近特写

asiangirlsface 亚洲面孔，权重0.2-0.4，0.2最佳

embeddings：

easynegetive 通用的负面词文本嵌入模型
https://civitai.com/models/7808/easynegative

motion（补帧模型）：

film_net_fp32.pt

ControlNet：

openpose 控制获取人物姿势，脸部表情，手指等

depth 控制画面的景深，对应预处理器，精细度由高到底排列可以选择：leres++,leres,midas,zoe

canny 边缘处理，一般用于图生图还原形象或照片内的文字信息，lineart专门实现动漫风格线稿上色功能的预处理器

HED(Holistically-Nested Edge Detect) ，如今变更名字为SoftEdge 相比于canny的边缘更加模糊，提高了发挥空间，对应的预处理器HED和Pidinet已经带safe的精简版

Scribble 边缘涂鸦，使用该模型及预处理器，可以实现简笔图生图效果

Tile 在放大工作流中用于增加细节

IPAdapter：

ipadapter_plus_sd15

NSFW：

chilloutmix checkpoints merged，底模SD1.5，生成亚洲风格女生绝绝子，限制接触

cardoggy doggy pose lora，权重在0.6-0.75最佳，触发词：CarDoggy,drivepose

tokens useful：feet,ass,soles

PoV Skin Texture - r34 Lucid Black 偏欧美，底模SD1.5，触发词：legs spread on a cock,lips wrapped around a cock,blowjob

AnimateDiff：

v3_sd15_mm.ckpt animatediff模型

WAS26 创意型animatediff lora

链接

AI绘画分享网站：

Openart.AI SD及欧美主流模型生成的图片

https://openart.ai/

ArtHub.AI 二次元及亚洲审美内容偏多

https://arthub.ai/

Civitai，模型开源网站

https://civitai.com/

提示词书写网站：

AI词汇加速器

ComfyUI

组件及快捷操作

loader，加载器

conditironing，为模型添加条件，一般为文本条件

sampling，采样器

latent，与潜空间数据相关的操作，如VAE解码（变分自编码器，用于将潜空间数据转为像素空间数据），upscale尺寸变换等

（custom）pipe，将多个数据流整合成一个管道数据，相当于进程管道或总线，避免连线复杂，但需要有对应的具有管道接口的节点

previeimage，中间图片预览组件

get image size，获取图片大小，用于图生图控制图片大小一样

放大模型：.pth文件，放在upscale_model文件夹下，用于图片的放大及高清修复

处理蒙版：invertmask蒙版反转；maskenroderegion蒙版收缩；blurmask蒙版羽化；convertmasktoimage蒙版转图片（用于显示蒙版）

conditionning combine，条件合并

快捷键ctrl+B，将某一个节点关闭（运行到此时跳过该节点）

自定义节点

1）在根目录的custom_nodes文件夹内git clone对应node git仓库的代码

2）安装ComfyUIManager

三个基本操作工作流

高清修复

1）在潜空间中，调用laten的upscaler，并多调一个denoise在0.5左右的Ksampler进行二次采样，这种放大修复方式过渡比较自然细节较多，但容易出现意想不到的生成

latent放大中的几种插值方法：latent放大中的几种插值方法

2）运用放大模型，对图像进行传统的放大修复，而后转为latent数据再进行重采样，在最终生成的图像中间添加放大模型进行分辨率提升，需要根据需要放大修复的图片选取对应风格的模型，该方法一般不会改变图片的原有内容，但细节较少，但是耗时较大效率较低

公认应用最广泛的放大模型：RealESRGAN_x4plus

适合动漫风格：RealESRGAN_x4plus_animate_6B

对生成图的细节进行锐化处理：4xUltrasharp_4xUltrasharpV10

3）为节省显存，将二次采样Ksampler替换为Ultimate SD Upscaler

局部重绘

tips

growmask节点可以接在两个mask数据流中间，以获得蒙版羽化

1）基于重绘编码器（空白潜空间重绘），对蒙版区域进行一次独立的文生图，在loadimage节点中右键打开open in mask editor，调出VAE Encode(for inpainting)，而后即和文生图的过程一样，使用该方法需要注意采样器的denoise需要在0.8以上

2）潜空间噪声蒙版重绘，对蒙版区域进行一次图生图，将带蒙版的原图用VAEdecode为latent数据，而后使用set latent noise mask节点将对应潜空间数据输出给采样器，这样就可以将denoise修改0.2-0.5之间，使重绘的可控性和关联性更高

附加网络

Embeddings

直接在clip文本框中输入“embeddings：模型名”即可

LoRA

注意调用ApplyLoRA，调用Load LoRA节点，将节点串联在主模型后即可发挥作用，多个LoRA遵循串联规则即可，也可以使用其他自定义节点包中的stack组件找到LoRA堆叠节点

参数，ModelStrength直接影响LoRA风格是否被加到主模型中，CLIPStrength影响文本提示词对LoRA的影响

ControlNet

官方工作流中有示例，核心在于ApplyControlNet，但官方示例中没有预处理器，需要额外下载ControlNet的预处理器节点

IPAdapater

ipadapterv2应用ipadapter（高级）：

权重类型区别，ease in原本模型和提示词权重低逐渐增加，ease out原本模型和提示词权重很高慢慢提高ipadapter的权重，ease in out开头及结尾ipa权重高中间提示词权重高，revers in out开头结尾提示词权重高ipa权重在中间高出图会与参考图相比有差别，weak input ipa权重较大慢慢扩大模型和提示词比例，weak output与前者相反，weak middle著模型及提示词权重较低只占30%左右，strong middle与前者相反；style transfer用于风格转绘；composition根据原构图进行转绘；

嵌入组缩放，Vonly和k+v的区别在于将类似字典的传参只传value和传key+value的区别，一般如果提示词较多传key+value可以防止过拟合；

combine_embeds，用于多图融合定义图片传入的方式，在调用了batch image节点（其前面需要串接一个prep image for clipvision节点）将参考图串接时，concat会将串接的图像通过clip vision模型转换为ipa的embedings，分别输入ipa模型中，add会将串接图像的特征信息进行混合容易过拟合但叠加权重会很高，substract则是图1减去图2，average则是平均串接的图片，norm average强弱特征进行归一处理一般不用

AI艺术字+AI立体二维码

1）生成白底黑字的图

换脸

AI绘画：使用Stable Diffusion ComfyUI进行换脸：IPAdapter FaceID全面教程_ipadapter换脸-CSDN博客

https://zhuanlan.zhihu.com/p/675360452

工作流参考

InstantID

instantid搭建流程差不多，效果比faceid好多了，但要求大模型底模是sdxl，故暂时作罢

高清人脸修复/facedetailer+facerestore

sam模型放在comfyui/models/sams内

bboxdetector模型放在comfyui/models/ultralytics/bbox

facedetection放在comfyui/models/facedetection

facerestore模型放在comfyui/models/facerestore_models（不知道为什么GFPGAN用不了会报错，该环可以直接去除）

手部修复

这俩工作流都不太行啊

将controlnet模型改为control_sd15_inpaint_depth_hand_fp16 模型

权重用0.55

图生视频SVD模型stable video diffusion

标准SVD图生视频工作流

SVD condition节点，宽高默认1024*576帧数25（选用xt模型时），fps为每秒播放的帧数，motion参数1-255控制运动幅度，cfg（无分类指导，用于保持画面对原始图像的忠实程度，越低画面越自由，过低导致画面模糊过高导致画面异常）从最小cfg节点动态变化到ksampler的最终cfg，增强水平用于添加照片中的噪声量越高视频与初始帧差异越大可以获得更多的运动（一般不超过1，当视频尺寸与默认宽高不同时最好设置为0.2-0.3）

记得安装VideoHelperSuite节点，用于保存mp4格式视频

局部控制

采用蒙版编辑，当出现画面割裂时可以调低与运动控制相关的参数

使用GroundingDINO（零样本检测器，根据文本描述检测图像中的物体生成大致范围）和SegmentAnything（在大致范围内抠出物体并生成蒙版）和进行语义自动识别抠图

AnimateDiff

链接：https://github.com/Kosinkadink/ComfyUI-AnimateDiff-Evolved

animatediff loader

串接在model和ksampler之间，

由于animatediff模型帧数限制，若需要延长视频生成时长，需要调节统一上下文context_options，调节上下文批次大小context_length（sd1.5的模型以16帧训练，设置为16最好），步幅context_stride，重叠次数context_overlap

video combine节点用于将输出存储为视频

frame_rate为帧率代表每秒多少张图片，如为8帧，需要2s的视频，则需要生成16批次batch_size的图片

LCMlora用于加速视频的生成，需要像生图的常规lora一样先接在大模型的后面，如果使用了LCMlora则ksampler的采样步数不能太高在2-8之间为佳，CFG也不能太高可以设置为1，采样器用lcm为佳其他也可以

motionlora用于控制运镜，加载在animatediff loader的输入，存放在animatediff_motion_lora文件夹，

cseti motion lora适用于SD1.5模型，Animatediffv2动画模型，训练于16帧视频默认宽高比3:2，建议权重0.7-1.0

提示词跃迁功能：

需要额外安装Fizznodes节点

调出batch prompt travel，替换掉正向提示词节点，按照其语法设置每一帧对应的prompt即可

基于引导图的生长动画animatediff搭建：

先安装自定义节点steerable motion；

安装advanced-controlnet节点，以支持sparsc ctrl；

安装animatediff evoled 节点；

ipadapter模型 ipadapter_plus_sd15；

clipvision模型 pytorch_model；

animatediff lora模型：was26；

animatediff 模型：v3_sd15_mm；

v3_sd15_sparsectrl_rgb animatediff controlnet结构控制模型；

调用batch creative interplotation进行生成过程的ipadapter管理，即管理输入图片作为关键帧的渐变，base_ipa_advanced_settings及detail_ipa_advanced_settings调出ipa configuration进行设置，前者0.0开始0.3结束ipadapter_weight_type设置为ease_in_out，后者0.3开始0.75结束ipadapter_weight_type设置为linear，噪音增加0；linear_strength_value设置为0到1即每张图片的引用强度都从没有到完全引用以实现图到图的生长；linear_frame_distribution_value为每张输入生成的帧数；

调用advanced_controlnet及sparse_control模型进行结构的控制；

注意ksampler的空白潜空间批次应该为输入的图片数量*batchcreativeinterplotation中每一张图片的帧数，如6张图，每张图生成16帧，则总batchsize数为6*16=96；

注意连接顺序为先大模型->ipadapter->sparse_controlnet->animatediff->ksampler->videocombine