1. 什么是ComfyUI
一种用于图像生成的节点工作的用户界面,采用模块化设计,把生图过程拆解为几个步骤,每个步骤链连接起来可以形成一个工作流。ComfyUI主要包含:模型加载器、提示词管理器、采样器和解码器。
- 模型加载器(CheckpointLoaderSimple):load Checkpoint用于加载基础模型,包含Model、CLIP(提示词管理模块)和VAE(解码器)三部分。
- 提示词管理器(CLIPTextEncode):用于输入文本和模型语言的转换,转化为模型可以理解的latent space embedding。
- 采样器(KSampler):生成图像的控制,不同采样值决定了生成结果的质量和多样性。同时采样器可以调节生成过程的速度和质量之间的平衡。
-
解码器(VAEDecoder):将latent space embedding解码成像素级别的图像。
2. ComfyUI的使用
2.0 界面展示
2.1 不带lora
2.2. 带lora
这里可以采用自己已经训练好的lora模型进行训练,在已有的模型上进行操作。
1)正向prompt
赛博朋克,黑色中长发华裔女性,面容冷静,中华唐人街背景 |
二次元,红色双马尾女性,开心,剪刀手,爬长城|
水墨画古风,至尊宝头戴金箍,双手合十,闭眼,浅红色祥云背景 |
像素风,小马宝莉,彩色云背景
2)反向prompt
丑陋,扭曲,噪声,模糊,低对比度
2.4 赛博朋克故事8图生成
(生成结果和用代码直接生成的结果类似,但是总感觉这个生成的更精致一些呢)
3. 思考与总结
3.1 ComfyUI使用体验
相比起直接用代码生成图片的操作,ComfyUI将更加直观地展示整个生图的过程,包括对模型的加载,对prompt的处理(转化为机器理解的语言)和对处理结果的像素级生图。
这样将更方便我们在调参生图的过程中更有针对性地去调整某一部分的参数,是更加新手友好的方案,更重要的是,对于自己训练好的模型,可以直接load进来,更方便模型之间的切换和对比。
3.2 prompts的输入
和上一篇的思路类似,在编辑prompt时,我们应该注意将其编写的“直观、无歧义、使用关键词”。其中,我在编辑时,包含以下几个元素:
- 图片风格:赛博朋克、二次元、水墨画古风、像素风……
- 图片主体:黑色中长发华裔女性、红色双马尾女性,至尊宝头戴金箍,小马宝莉……(在照片主体中要突出主体的特征,比如头发颜色,发型,发饰等等)
- 肢体特征:面容冷静;开心,剪刀手;双手合十,闭眼;……
- 场景特征:中华唐人街背景 ,爬长城,浅红色祥云背景,彩色云背景……
根据我自己的生图经验来说,我们需要对上述几个元素进行详细的描述,以期模型可以很好地理解我们语言从而生图。