AI生产力

原理/概念

原图->增加噪声进行图像扩散->基于模型逆运行去除噪声

checkpoints检查点:

大模型在训练过程中,到一定程度会进行存档,这个存档就是检查点,使用者可以使用检查点进行内容的生成。有ckpt和safetensors两种文件格式,后者文件大小更小效率更高。

采样器(去噪):

采样迭代步数:理论上采样步数越高计算时间越长,画面清晰度越高

采样方法:进行图片采样的具体算法

常用采样器:euler适合插画风,DPM2M等出图速度快,SDE细节多,一般模型会有推荐使用的采样器

潜空间数据:

导出为图像数据时在模型中实际运算的数据

CLIP:

全称“对比性语言-图像预训练”,用于模型中理解图像和文本间关联的部分,当clip连接到文本条件框时,相当于将提示词框解读出来的信息转化为模型“条件”。

VAE变分自解码器:

用于将潜空间数据转换到像素空间变为图像数据,相当于生图过程中的滤镜,主要影响画面的色彩质感,很多大模型文件中自带了VAE,有些没有,若缺失VAE则需要添加合适的VAE模型以支持该模型工作。

Embeddings(嵌入式向量):

对特征进行指向性引导,如模型中有“鸟人”的相关描述,但没有“鸟人”,则此时使用对应的embeddings模型可以对主模型中的鸟和人的信息进行融合汇总,即可得到“鸟人”相关的信息。

可以用于修复扭曲、错乱、颜色混乱、噪点、画面过灰、提示词解读偏差过大等问题。

LORA(低秩适应网络):

对主网络进行微调的一个附加权重网络,实现风格化。训练时会分文本编码器(CLIP text encoder)和噪声预测器(组模型UNet)进行训练。

使用LoRA进行局部重绘,可以在不影响主模型产出的情况下,得到特定所需的内容,如加一个科技感的头盔。

HyperNetwork(超网络):

用于微调生成内容的画风,一般用于绘制特定的风格,但可以被LoRA取代。

ControlNet:

通过额外的信息训练出一个附加网络,使生图更精细,可以根据线条等控制姿势、深度、色彩等

模型的输入需要使用预处理器获取需要控制的信息

种子:

模型每一次生成图片都会有一套生成的方法,该方法被记录成一个种子序列,如果固定种子值,则生成的图片在一定程度上会有一定的相似之处。


工具/链接

链接/资料

Tips

底图常用分辨率515*512,512*768

动漫风格常用采样器dpm++2m+karras,写实风常用采样器dpm++2msde+karras

常用step和cfg 20-30,4-8

提示词:

画质:best quality, ultra-detailed, masterpiece,hires,4k,unreal engine rendered

画风:插画illustration,painting,paintbrush ;二次元anime,comic,game CG;写实realistic,photograph,photorealistic

画幅视角:close-up,distant,full body,upper body,from above,view of body, wide angle

人像:soft_skin,  

常用反向提示词:

通用:(worst quality:2), (low quality:2), (normal quality:2), duplicate,extra digit, blurry,

色彩:monochrome, grayscale,  bad prportions,

人像:ugly, unclear eyes, morbid 

人像控制: age spot,  skin spots,  missing arms,  fused fingers,extra leg,  extra limbs,  mutated hands

绘画提示词权重语法:

1)给提示词套括号,每套一层()变为1.1倍,[]变为0.8倍

2)给提示词套括号后再直接定义权重,如(white flower:1.5)即白花权重为1.5倍

进阶语法:

混合:while/yellow flower  生成白色和黄色的花   milk_tea 牛奶

组合:milk and tea 生成牛奶和茶的融合

隔离:当出现多种颜色时为避免混淆在各个元素间加break    black hair break white shirt

迁移:[while/red/blue] flower  循环生成白红蓝花

迭代:[hite flower:bush:0.8] 采样进程到80%前生成白花,而后生成灌木

           [cloud:0.8]   采样到80%才开始生成云    [cloud::0.8]    采样的前80%生成云

提示词相关性:

stablediffusion中7-12比较安全

常用模型:

ckpt:

sd3_medium      stablediffusion官方文生图模型


majicmixRealistic_v7      麦橘写实,东方面孔人像
Sampler: Euler a, Euler, restart
Steps: 20~40
Hires upscaler: ESRGAN 4x or 4x-UltraSharp or 8x_NMKD-Superscale_150000_G
Hires upscale: 2+
Hires steps: 15+
Hires denoising strength: 0.05~0.5
clip skip 2


dreamshaper_8      全能型,适合生成精美人像,科幻场景,科幻人像等


LOFI      极度写实的人像写真,媲美摄影,适合欧美面孔
Sampler: DPM++ (series) / Restart
Steps: 15-55 (35 recommended)
CFG: 2-5 (4 recommended)
The lower the CFG, the more creative the generated image may be.


MeinaMIX        动漫风格
Sampler: DPM++ SDE Karras: 20 to 30 steps.
Sampler: DPM++ 2M Karras: 20 to 60 steps.
Sampler: Euler a: 40 to 60 steps.
CFG Scale: 4 to 11.
Resolutions: 512x768, 512x1024 for Portrait!
Resolutions: 768x512, 1024x512, 1536x512 for Landscape!
Hires.fix: R-ESRGAN 4x+Anime6b, with 10 steps at 0.3 up to 0.6 denoising.
Clip Skip: 2.
Negatives: ' (worst quality, low quality:1.4), (zombie, sketch, interlocked fingers, comic) '
Negatives if you can't use Hires.fix:
'(worst quality:1.6, low quality:1.6), (zombie, sketch, interlocked fingers, comic)'

pixarStyleModel_v10      皮克斯风格


counterfeit      精致感二次元插画模型
 

stable_video_diffusion      图生视频模型,xt版本为25帧视频,不带xt版本为14帧视频(要求12G显存为佳)

swizz8_REALBakedVAE-fp16        画手较好的模型

LoRA:

guochaochachua    国朝插画风格lora 0-1之间

s shape                   女性体态,权重越高身材越好

detail teaker            细节调整,-2到2之间,一般0.5

Blurred or sharp edges      背景清晰到虚化,权重-1.5-1.5

skin&hands(polyhedron_new_skin_v1.1)            皮肤真实质感, 这款皮肤偏欧美,0.2最佳

realskin                   真实皮肤,亚裔可用,0.2-0.5

LEOSAM's Clothing +/- Adjuster      衣物增减,权重越高衣物越少-0.5-1.3之间

Age slider(AS-YoungV2-neg)               改变任务年龄权重值在-4-4之间,该lora不能把任务变成小孩,故实际使用权重在-1-4之间

zoom slider             镜头距离控制,权重在-7-7之间调整,权重越大越接近特写

asiangirlsface         亚洲面孔,权重0.2-0.4,0.2最佳

embeddings:

easynegetive      通用的负面词文本嵌入模型
https://civitai.com/models/7808/easynegative

motion(补帧模型):

film_net_fp32.pt

ControlNet:

openpose         控制获取人物姿势,脸部表情,手指等

depth                控制画面的景深,对应预处理器,精细度由高到底排列可以选择:leres++,leres,midas,zoe

canny               边缘处理,一般用于图生图还原形象或照片内的文字信息,lineart专门实现动漫风格线稿上色功能的预处理器

HED(Holistically-Nested Edge Detect) ,如今变更名字为SoftEdge          相比于canny的边缘更加模糊,提高了发挥空间,对应的预处理器HED和Pidinet已经带safe的精简版

Scribble            边缘涂鸦,使用该模型及预处理器,可以实现简笔图生图效果

Tile                  在放大工作流中用于增加细节

IPAdapter:

ipadapter_plus_sd15

NSFW:

chilloutmix      checkpoints merged,底模SD1.5,生成亚洲风格女生绝绝子,限制接触

cardoggy        doggy pose lora,权重在0.6-0.75最佳,触发词:CarDoggy,drivepose

                                                                                       tokens useful:feet,ass,soles

PoV Skin Texture - r34 Lucid Black        偏欧美,底模SD1.5,触发词:legs spread on a cock,lips wrapped around a cock,blowjob

AnimateDiff:

v3_sd15_mm.ckpt      animatediff模型

WAS26                      创意型animatediff lora

链接

AI绘画分享网站:

Openart.AI SD及欧美主流模型生成的图片

https://openart.ai/

ArtHub.AI 二次元及亚洲审美内容偏多

https://arthub.ai/

Civitai,模型开源网站

https://civitai.com/

提示词书写网站:

AI词汇加速器


ComfyUI

组件及快捷操作

loader,加载器

conditironing,为模型添加条件,一般为文本条件

sampling,采样器

latent,与潜空间数据相关的操作,如VAE解码(变分自编码器,用于将潜空间数据转为像素空间数据),upscale尺寸变换等

(custom)pipe,将多个数据流整合成一个管道数据,相当于进程管道或总线,避免连线复杂,但需要有对应的具有管道接口的节点

previeimage,中间图片预览组件

get image size,获取图片大小,用于图生图控制图片大小一样

放大模型:.pth文件,放在upscale_model文件夹下,用于图片的放大及高清修复

处理蒙版:invertmask蒙版反转;maskenroderegion蒙版收缩;blurmask蒙版羽化;convertmasktoimage蒙版转图片(用于显示蒙版)

conditionning combine,条件合并

快捷键ctrl+B,将某一个节点关闭(运行到此时跳过该节点)

自定义节点

1)在根目录的custom_nodes文件夹内git clone对应node git仓库的代码

2)安装ComfyUIManager

推荐/实用节点

ComfyUI-Custom-Scripts,用于提示词文本的自动补全

Tagger,用于图片智能反推提示词

ComfyUI-impact-pack,整合了130个常用节点的节点包

ComfyUI-inspire-pack,市面上一半以上的工作流都会用到这个包里的节点,但大小太大

Efficiency,主要的efficient loader和efficient ksampler能够节省很多的节点连接

Ultimate SD Upscaler,图片高清放大过程中,替换二次采样器Ksampler,将图片分割成小块进行采样后再修复,可以节省显存

ControlNetAux,ControlNet预处理器节点

UseEverywhere,能够实现全局输入,将某一个数据流进行全局广播,有效减少连接数

layerstyle,图层生成

FaceresStore,换脸相关节点,用于获取脸部特征

animatediff evoled 动画制作节点

VideoHelperSuite  用于视频制作及相关操作的节点

三个基本操作工作流

高清修复

1)在潜空间中,调用laten的upscaler,并多调一个denoise在0.5左右的Ksampler进行二次采样,这种放大修复方式过渡比较自然细节较多,但容易出现意想不到的生成

latent放大中的几种插值方法:latent放大中的几种插值方法

2)运用放大模型,对图像进行传统的放大修复,而后转为latent数据再进行重采样,在最终生成的图像中间添加放大模型进行分辨率提升,需要根据需要放大修复的图片选取对应风格的模型,该方法一般不会改变图片的原有内容,但细节较少,但是耗时较大效率较低

公认应用最广泛的放大模型:RealESRGAN_x4plus

适合动漫风格:RealESRGAN_x4plus_animate_6B

对生成图的细节进行锐化处理:4xUltrasharp_4xUltrasharpV10

3)为节省显存,将二次采样Ksampler替换为Ultimate SD Upscaler

局部重绘

tips

growmask节点可以接在两个mask数据流中间,以获得蒙版羽化

1)基于重绘编码器(空白潜空间重绘),对蒙版区域进行一次独立的文生图,在loadimage节点中右键打开open in mask editor,调出VAE Encode(for inpainting),而后即和文生图的过程一样,使用该方法需要注意采样器的denoise需要在0.8以上

2)潜空间噪声蒙版重绘,对蒙版区域进行一次图生图,将带蒙版的原图用VAEdecode为latent数据,而后使用set latent noise mask节点将对应潜空间数据输出给采样器,这样就可以将denoise修改0.2-0.5之间,使重绘的可控性和关联性更高

附加网络
Embeddings

直接在clip文本框中输入“embeddings:模型名”即可

LoRA

注意调用ApplyLoRA,调用Load LoRA节点,将节点串联在主模型后即可发挥作用,多个LoRA遵循串联规则即可,也可以使用其他自定义节点包中的stack组件找到LoRA堆叠节点

参数,ModelStrength直接影响LoRA风格是否被加到主模型中,CLIPStrength影响文本提示词对LoRA的影响

ControlNet

官方工作流中有示例,核心在于ApplyControlNet,但官方示例中没有预处理器,需要额外下载ControlNet的预处理器节点

IPAdapater

ipadapterv2应用ipadapter(高级):

权重类型区别,ease in原本模型和提示词权重低逐渐增加,ease out原本模型和提示词权重很高慢慢提高ipadapter的权重,ease in out开头及结尾ipa权重高中间提示词权重高,revers in out开头结尾提示词权重高ipa权重在中间高出图会与参考图相比有差别,weak input ipa权重较大慢慢扩大模型和提示词比例,weak output与前者相反,weak middle著模型及提示词权重较低只占30%左右,strong middle与前者相反;style transfer用于风格转绘;composition根据原构图进行转绘;

嵌入组缩放,Vonly和k+v的区别在于将类似字典的传参只传value和传key+value的区别,一般如果提示词较多传key+value可以防止过拟合;

combine_embeds,用于多图融合定义图片传入的方式,在调用了batch image节点(其前面需要串接一个prep image for clipvision节点)将参考图串接时,concat会将串接的图像通过clip vision模型转换为ipa的embedings,分别输入ipa模型中,add会将串接图像的特征信息进行混合容易过拟合但叠加权重会很高,substract则是图1减去图2,average则是平均串接的图片,norm average强弱特征进行归一处理一般不用

AI艺术字+AI立体二维码

1)生成白底黑字的图

换脸

AI绘画:使用Stable Diffusion ComfyUI进行换脸:IPAdapter FaceID全面教程_ipadapter换脸-CSDN博客

https://zhuanlan.zhihu.com/p/675360452

工作流参考

InstantID

instantid搭建流程差不多,效果比faceid好多了,但要求大模型底模是sdxl,故暂时作罢

高清人脸修复/facedetailer+facerestore

sam模型放在comfyui/models/sams内

bboxdetector模型放在comfyui/models/ultralytics/bbox

facedetection放在comfyui/models/facedetection

facerestore模型放在comfyui/models/facerestore_models(不知道为什么GFPGAN用不了会报错,该环可以直接去除)

手部修复

这俩工作流都不太行啊

将controlnet模型改为control_sd15_inpaint_depth_hand_fp16 模型

权重用0.55

图生视频SVD模型stable video diffusion

标准SVD图生视频工作流

SVD condition节点,宽高默认1024*576帧数25(选用xt模型时),fps为每秒播放的帧数,motion参数1-255控制运动幅度,cfg(无分类指导,用于保持画面对原始图像的忠实程度,越低画面越自由,过低导致画面模糊过高导致画面异常)从最小cfg节点动态变化到ksampler的最终cfg,增强水平用于添加照片中的噪声量越高视频与初始帧差异越大可以获得更多的运动(一般不超过1,当视频尺寸与默认宽高不同时最好设置为0.2-0.3)

记得安装VideoHelperSuite节点,用于保存mp4格式视频

局部控制

采用蒙版编辑,当出现画面割裂时可以调低与运动控制相关的参数

使用GroundingDINO(零样本检测器,根据文本描述检测图像中的物体生成大致范围)和SegmentAnything(在大致范围内抠出物体并生成蒙版)和进行语义自动识别抠图

AnimateDiff

链接:https://github.com/Kosinkadink/ComfyUI-AnimateDiff-Evolved

animatediff loader

串接在model和ksampler之间,

由于animatediff模型帧数限制,若需要延长视频生成时长,需要调节统一上下文context_options,调节上下文批次大小context_length(sd1.5的模型以16帧训练,设置为16最好),步幅context_stride,重叠次数context_overlap

video combine节点用于将输出存储为视频

frame_rate为帧率代表每秒多少张图片,如为8帧,需要2s的视频,则需要生成16批次batch_size的图片

LCMlora用于加速视频的生成,需要像生图的常规lora一样先接在大模型的后面,如果使用了LCMlora则ksampler的采样步数不能太高在2-8之间为佳,CFG也不能太高可以设置为1,采样器用lcm为佳其他也可以

motionlora用于控制运镜,加载在animatediff loader的输入,存放在animatediff_motion_lora文件夹,

cseti motion lora适用于SD1.5模型,Animatediffv2动画模型,训练于16帧视频默认宽高比3:2,建议权重0.7-1.0

提示词跃迁功能:

需要额外安装Fizznodes节点

调出batch prompt travel,替换掉正向提示词节点,按照其语法设置每一帧对应的prompt即可

基于引导图的生长动画animatediff搭建:

先安装自定义节点steerable motion;

安装advanced-controlnet节点,以支持sparsc ctrl;

安装animatediff evoled 节点;

ipadapter模型 ipadapter_plus_sd15;

clipvision模型 pytorch_model;

animatediff lora模型:was26;

animatediff 模型:v3_sd15_mm;

v3_sd15_sparsectrl_rgb  animatediff controlnet结构控制模型;

调用batch creative interplotation进行生成过程的ipadapter管理,即管理输入图片作为关键帧的渐变,base_ipa_advanced_settings及detail_ipa_advanced_settings调出ipa configuration进行设置,前者0.0开始0.3结束ipadapter_weight_type设置为ease_in_out,后者0.3开始0.75结束ipadapter_weight_type设置为linear,噪音增加0;linear_strength_value设置为0到1即每张图片的引用强度都从没有到完全引用以实现图到图的生长;linear_frame_distribution_value为每张输入生成的帧数;

调用advanced_controlnet及sparse_control模型进行结构的控制;

注意ksampler的空白潜空间批次应该为 输入的图片数量*batchcreativeinterplotation中每一张图片的帧数,如6张图,每张图生成16帧,则总batchsize数为6*16=96;

注意连接顺序为先大模型->ipadapter->sparse_controlnet->animatediff->ksampler->videocombine

补帧放大

使用R-ESRGAN模型进行放大并用FILM模型进行补帧


Luma首尾帧视频生成

云Comfyui

云端comfyui

Cephalon Cloud 端脑云 - AIGC 应用平台

脚本及分镜

https://github.com/yuyou-dev/AI-Director

该链接为脚本和分镜需求的输入模板

https://chat18.aichatos.xyz/#/chat/1706513423304

gpt可以用这个

关键帧

将脚本和分镜放到midjourney或其他文生图ai中生成关键帧,注意每一个分镜的关键帧之间连贯性

细节放大

将关键帧放到magnific中进行创意放大

Magnific AI — The magic image Upscaler & Enhancer

或在comfyui中自定义放大细节

luma生成

https://lumalabs.ai/dream-machine/creations

在luma中将关键帧放入并详细描述镜头进行画面的生成

suno

ai配乐工具

https://suno.com/


BUG_log

1)custom node DB is currently being updated....

使用manager安装节点始终失败并跳出该弹窗。

更新ComfyUINodeManager节点即可,manager需要更新了

2)WD14-Tagger无法运行,报无法连接到huggingface.co

打开comfyui根目录下的custom_nodes文件夹,找到ComfyUI-WD14,进入后找到pyssss.json,找到网址进行修改

3)clip转换文本为输入点不开

禁用AIGODLIKE-COMFYUI-TRANSLATION即可

4)openpose预处理器报proxy error

挂梯子

5)安装insightface

找到comfyui的python环境,一般为python_embeded文件夹,在这里面打开windows命令行窗口,输入

python.exe -m pip install "insightface-0.7.3-cp311-cp311-win_amd64.whl" onnxruntime 即可

6)insightface报错 error initialize insightfaceadapter...."detection"....

模型没有自动下载成功,去网上下载buffalo_l

解压到comfyui/models/insightface/models下

7)Error occurred when executing ACN_SparseCtrlLoaderAdvanced: PytorchStreamReader failed reading zip archive: failed finding central directory

模型下载不完整故无法打开,重新下载加载的模型即可

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值