AI ｜开源AI绘画·王者现身

AIGC-Lison

于 2024-08-15 09:38:28 发布

阅读量431

点赞数 6

文章标签：人工智能 AI作画 stable diffusion AIGC

本文链接：https://blog.csdn.net/z19981/article/details/141209708

版权

前几天AI绘画界发生了一件大事，FLUX开源了。这几天有一张AI的图刷屏了，就是下面这幅。

所有的AI设计工具，模型和插件，都已经整理好了，👇获取~

这张“照片”就是FLUX生成的，用到了一个专门的Realism LoRA，然后一时间网友们纷纷效仿，坊间立刻充斥了各种“讲PPT的人”，比如这个。

（图片来源于网络）

真假难辨吧，虽然其实不少细节仔细辨认的话还是能找到AI生成的痕迹的，不过，咋一看确实很唬人。

FLUX是啥？开源的AI绘画模型最有名的自然是Stable Diffusion，出品它的公司叫Stablity AI，这家公司曾经的首席科学家辞职后自己又搞了一个AI绘画的模型，就叫FLUX。现在FLUX也开源了。

Stable Diffusion 3 Medium开源后，骂声一片，虽然语义理解很强大，但在艺术性…唉，不提也罢，甚至基本的人体结构也问题多多，然后就像奥运比赛中国队的跳水一样，没溅起啥水花就销声匿迹了。反观这次FLUX的开源发布，短短的时间内便掀起一浪又一浪的高潮，而且人家对标的根本不是SD，而是一向被作为画质标杆的MJ。

有人就对比了FLUX和MJ，摘抄一些大家评价一下。

（以上四组图片来源于网络，有剪裁）

如何？我特意事先没有说左边和右边的图是哪个AI模型生成的。这四组对比图，左边都是由FLUX生成的，右边是MJ。

不知道大家的看法如何。我个人感觉，还是MJ的艺术性更多一丢丢，不过都属于主管感受，其实已经分不太出谁好谁坏，如果一定要分，只能是萝卜白菜各有所爱了。

目前能引起大家热议的图基本都是FLUX pro生成的。FLUX pro现在还只能以API的形式在线申请使用。不过FLUX还有其它两个版本可以把模型下载下来部署到本地，这就是FLUX dev版和FLUX schnell版。那么这些可以独立在本地运行的AI绘画表现又如何呢？

下面这些都是FLUX dev生成的图。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

（以上六幅图片来源于网络）

怎么样，还不错吧。其实最关键的是，上面这六幅图是在Draw Things APP里生成的，为什么非要提一下这个Draw Things呢。要知道FLUX dev虽然可以运行在本地电脑，但对硬件的要求是很高的，没有个大显存的英伟达显卡的话，嘿嘿，可能根本就跑不起来。但是，Draw Things的作者却能够不仅把FLUX dev集成进来，而且把运行时的峰值内存控制在6.5G左右，这就使得一台8G内存的苹果设备就可以运行FLUX，这实在是我们这些没有4090卡的AI绘画爱好者的福音啊o(^▽)o

当然，用相对低配置的设备来跑FLUX dev的代价就是生成时间比较慢。

上面这幅图是我用自己的设备生成的，提示词是抄别人的，就是上面那幅踩着滑板的图的提示词。

硬件：iPad pro 第六代，M2芯片，16G运行内存

软件：Draw Things APP，FLUX.1 dev版

图片尺寸：768 x 1152

提示词：(ultra-realistic, photograghic, natural look) pretty Chinese woman standing on a skateboard

Step：20

Shift：2.83 （这个参数需用公式根据图片尺寸算出）

CFG: 2.0

采样器：Euler A Trailing

（上面黑体字的参数是关键参数）

用时将近11分钟，呃… 确实有点慢…

不是还有一个FLUX schnell版也可以下载到本地运行吗，是的，具体技术细节我也不太懂，不过这个版本的一大好处是只需2～4步就可以生成一幅图，而且画质可接受。步数少，生成用时就大大缩短。

下面这幅图就是FLUX schnell版生成，需要特别注意的参数配置是：

Step：4

Shift：1.0

CFG：1.0

生成这幅图的用时是2分钟，时间缩短了不少，画质还可以，关键是也很符合提词描述。

作为对比，来看看SD3 Medium的表现。

SD3 Medium用时也是2分钟左右，不过画质很一般，而且吧，都说SD3 Medium画人体结构不灵，这滑板结构看来也是画不好啊(^_😉，好在对提词的语义理解还是一直很稳定的，这一点没得说，在FLUX没出来之前，开源的AI绘画模型语义理解的王者肯定非SD3 Medium莫属，可惜FLUX开源后，基本上就让位给FLUX了，再加上FLUX的高画质… 真是替Stability AI公司捏把汗啊(−_−＃)

下面找了几个主题把FLUX开源的两个模型跟我之前常用的模型做个简单的比较。参与比较的模型是xxmixgirl_realistic、Kwai Kolors。

xxmixgirl_realistic不用多说了，之前用的最多的模型，号称“最美亚洲人脸”。Kwai Kolors，快手出品的“可图”绘画大模型，最大的优势是可以支持中文提示词，可以中文直出，而且近期试用过一段时间后感觉画质也很出众，人脸也比较美(^_😉，在我看来算是基于SDXL模型优化出来的最强模型。

对比的原则是使用相同的提示词出图，各自生成4到20张图不等，从中选出2至4幅进行对比，所有图都是考验照片写实能力，并且不进行任何修脸等后期操作。xxmixgirl和Kolors应用4-step LoRA以缩短生图时间，基本上可以从2分半钟缩短到半分钟一幅图。而FLUX schnell生成一张图4步的话用时2分钟左右。FLUX dev版最慢，一张图11分钟。

开始。

1）酒吧里带枪的女子

提示词：

(Ultra-realistic, photographic, natural look), A Chinese girl sitting beside a table in a dim bar, she is wearing a tank top, there is a Glock pistol on the table, some money and bullets as well, she is looking at you expressionlessly

xxmixgirl

讲真，用xxmixgirl生成了好多图，基本都没出现手枪，我都震惊了，只有一张出现了手里拿着手枪，手还是畸形…(^_😉

Kolors

生成的图里，很多手枪都是变形的，要么是太大，要么是枪把太短，手部畸形的情况也比较多，不过整体氛围还挺像那么回事的。

FLUX schnell

目前我看到的对FLUX schnell最多的诟病就是人物皮肤的塑料感，从上面四幅图也可见一斑，不过对提词的语义理解确实很厉害，除了上面这4幅，其它生成的每一张图里都严格出现了提示词做描述的内容。

FLUX dev

FLUX dev的语义理解跟schnell版应该是一样的，没得说，很厉害，画质方面比schell版更真实，反正我是更喜欢dev版的图，只是出图时间是真的慢(^_😉

2）骑摩托瞄准的女子

提示词：

Ultra-realistic, photographic, natural look),a Chinese girl riding a motorcycle in woods, she is wearing leather jacket and pants and aiming at a target with a pistol in her right hand.

xxmixgirl

很难得到满意的效果，生成了二三十幅图里大多只是表达出骑摩托，好不容易生成个拿枪的，结果摩托又丢了…

Kolors

可图的图其实还蛮好看的(^_-)，而且多数都能按要求出现至少是拿着枪的画面，只不过很多时候拿枪的手会出现畸形的情况。

FLUX schnell

FLUX schnell基本都能严格按提示词要求生成画面，而且手部也基本上没有大毛病，也算是不小的突破了。

FLUX dev

没话说，看图就够了，FLUX dev在我的设备上11分钟出一张图也值得等待。

3）劳拉快跑

提示词：

(Ultra-realistic, photographic, natural look), Tomb raider Lara Croft riding a motorcycle and chased by a Tyrannosaurus rex in rain forest. In the near distance there is a ruin of ancient temple.

xxmixgirl