ComfyUI 完整入门:反推提示词的四种方法

在AI绘画中提示词是一个很重要的方面,有效的提示词才能生成期望的图像。提示词就像是图像的引路灯,往往一个词就有化腐朽为神奇的力量。关于提示词的重要性,这里就不多说了,用过的同学应该都知道。

这篇文章的主题是反推提示词。有时候我们看到一张图特别棒,想要模仿它的构图或者某些风格;又或者我们想要在重绘图像时保持图像的基本元素不变;再或者我们想要训练自己的模型,就需要给所有的训练图片打标。这些时候就需要反推提示词了。

最基本的反推方法是人力反推,我们根据自己的认识,参考图片内容,手动编写,不过大家的认识都是有限的,很多元素和风格可能不知道如何描述,即使能描述出来,还要翻译成英文,人力反推费时费力,最终出图效果也不一定好,可谓低质低效。因此本文并不是介绍人工反推提示词的方法。

本文介绍的都是通过AI模型反推提示词的方法,用到的AI绘画工具是ComfyUI,只需要上传一张图,就可以生成各种风格的高质量提示词。

如果你对提示词还是一知半解,缺少一个整体的认识,可以先看看我之前分享过一些提示词教程:

环境准备

本地手工部署

如果你本地有一个24G显存的Nvidia显卡,可以参考我这篇文章,在本地部署一个ComfyUI:

ComfyUI 完全入门:安装部署

不过想要运行本文介绍的工作流,你还要安装缺失的插件节点、下载相关的模型,这个难度和工作量不容小视,建议仅对这一套比较熟悉的同学尝试。

云环境免费体验

如果你本地没有相关的资源,也不想费力吧啦的自己部署,或者就是想看看效果,可以直接使用我的云镜像,一键开启,直接使用。这个平台注册就送一定的额度,大家可以免费使用几个小时,足够时间体验反推提示词了。

镜像访问地址:https://www.haoee.com/applicationMarket/applicationDetails?appId=27&IC=XLZLpI7Q

注册成功后,点击页面上的“立即创建”,即可开启 ComfyUI 应用,如下图所示:

img

应用创建后会自动跳转至“工作台”。启动成功后,状态将显示为“运行中”,此时点击“打开应用”,即可在浏览器进入操作界面。本应用启动大约需要1-2分钟,如果打开页面显示空白,请刷新再尝试。

img

ComfyUI在浏览器中启动后,我们可以先通过设置切换到中文界面,选择“中文”:

img

然后点击“加载”旁边的小箭头,选择一个“提示词”工作流,点击“添加提示词队列”,就可以开始愉快的生成了。

img

反推提示词的各种方法

目前在ComfyUI中我们可以使用多种提示词反推方法,这里将逐一介绍。

文末有模型和工作流的下载方式。

1、WD14 Tagger

WD14 Tagger 出来的比较早,Stable Diffusion WebUI 中也有这个插件,使用特别广泛,它会生成标签式的提示词。看下边工作流中使用红框圈出来的节点,只需要选择一个反推模型,设置提示词的阈值,就可以自动生成标签式的提示词,然后我们可以用这个提示词再去生成一张新的图片。

这个插件的完整名称是:ComfyUI-WD14-Tagger

img

2、CLIP询问机

CLIP询问机会生成偏自然语言风格的提示词,但是也会出现很多标签词,算是一个提示词的折中版本。

我是用的是 comfyui-mixlab-nodes 插件提供的,这个节点支持多种提示词模式:最快、经典、最好,还可以生成反向提示词。

img

3、JoyCaption

这个插件的完整名称是:Comfyui_CXH_joy_caption。

JoyCaption 内部提供了多个提示词反推方法,下图对比了使用 Min2_6、Joy_caption、Florence2反推提示词的效果。

img

对应生成的图像如下所示:

img

简单介绍下这几个提示词反推模型:

MIn2_6 使用的模型是:MiniCPMv2_6-prompt-generator,这是通过微调 MiniCPM-V 2.6 实现的,MiniCPM-V 2.6 是一个适用于图片和视频的多模态大语言模型。MiniCPMv2_6-prompt-generator在 2x 4090 24GB GPU上进行训练,并使用来自Midjourney的3000多个样本进行训练。该模型可以生成具有自然语言风格的短提示和长提示,可用于LORA训练时生成图像标签。使用整数量化版本可以降低GPU内存使用量(约7GB)。

Joy_caption 本身有一个自己的模型,这里搭配了Llama-3.1-8B的一个微调模型,应该是用来优化提示词的。

Florence2 使用的模型是:CogFlorence-2.2-Large,它是通过微调微软发布的 Florence-2-large 模型实现的。Florence-2-large是一个先进的视觉基础模型,可以解释简单的文本提示,执行如标注、对象检测和分割等任务。它学习了包含1.26亿张图像的54亿个注释。CogFlorence-2.2-Large 在4万张图像子集中进行了调优,可以生成自然语言风格的提示词,也可以生成传统标签风格的提示词,这对于支持两个CLIP文本编码器的Flux等模型特别有意义。

这几个里边,个人体感,Joy_caption的效果最好,其次是 Florence2、MIn2_6。

Joy_caption还支持批量打标,方便训练模型:

img

4、Miaoshouai-Tagger

这个插件也会使用上文提到的 Florence2 模型,使用的是 Florence-2-large-PromptGen-v1.5,,然后它可以同时输出两种格式提示词(caption_method选择mixed),搭配Flux,生成效果比较完美。演示效果如下图所示:

img

这个插件的完整名称是:ComfyUI-Miaoshouai-Tagger。它也支持批量达标,方便大家去训练模型。

img

个人认为,这个插件对原始参考图像的还原度是最高的。

中文提示词

考虑到很多同学书写英文比较费劲,这里额外介绍一个可以直接输入中文提示词的节点。

这个节点是 comfyui-mixlab-nodes 插件提供的,提示词允许输入中文,它会自动翻译,然后还可以根据我们的提示词进行自动优化,优化能力来源于大量用户使用的Midjourney提示词。

img

资源下载

关于AI绘画技术储备

学好 AI绘画 不论是就业还是做副业赚钱都不错,但要学会 AI绘画 还是要有一个学习规划。最后大家分享一份全套的 AI绘画 学习资料,给那些想学习 AI绘画 的小伙伴们一点帮助!

为了帮助大家更好地掌握 ComfyUI,我在去年花了几个月的时间,撰写并录制了一套ComfyUI的基础教程,共六篇。这套教程详细介绍了选择ComfyUI的理由、其优缺点、下载安装方法、模型与插件的安装、工作流节点和底层逻辑详解、遮罩修改重绘/Inpenting模块以及SDXL工作流手把手搭建。

需要的可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

一、ComfyUI配置指南

  • 报错指南
  • 环境配置
  • 脚本更新
  • 后记

img

二、ComfyUI基础入门

  • 软件安装篇
  • 插件安装篇

img

三、 ComfyUI工作流节点/底层逻辑详解

  • ComfyUI 基础概念理解
  • Stable diffusion 工作原理
  • 工作流底层逻辑
  • 必备插件补全

img

四、ComfyUI节点技巧进阶/多模型串联

  • 节点进阶详解
  • 提词技巧精通
  • 多模型节点串联

img

五、ComfyUI遮罩修改重绘/Inpenting模块详解

  • 图像分辨率
  • 姿势

img

六、ComfyUI超实用SDXL工作流手把手搭建

  • Refined模型
  • SDXL风格化提示词
  • SDXL工作流搭建

img

img

这份完整版的学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值