FLUX：开源图像生成新王者，力压 DALL・E3 和 Midjourney V6

本文链接：https://blog.csdn.net/xiaobing259/article/details/142148717

引言

在当今人工智能技术飞速发展的时代，AI 图像生成领域不断涌现出令人瞩目的创新成果。开源模型 FLUX 的出现，犹如一颗耀眼的新星，在该领域掀起了一阵波澜。本文将深入探讨 FLUX 的背景、特点、基准测试以及本地部署推理等方面，带您全面了解这一具有潜力的开源模型。

一、FLUX 的诞生背景

FLUX 是由 blackforestlabs（黑森林实验室）开发的文本到图像合成模型。其创始人 robinrombach 是 stable diffusion 的两位主要作者之一，团队成员大多也来自 stabilityai。有着这样强大的背景支持，FLUX 自诞生起就备受关注。它于 2024 年 8 月初正式发布，迅速在 AI 圈内引发了广泛的讨论和热议。
在这里插入图片描述

二、FLUX 的主要特点

强大的性能表现：FLUX 拥有 120 亿参数，是迄今为止最大的开源文本到图像模型之一。在视觉质量、图像细节和输出多样性等方面都展现出了卓越的性能，甚至宣称在性能上显著超越了 dall - e3、midjourney v6 等知名的闭源模型以及开源界的 sd3 系列。
丰富的模型版本：FLUX 提供了三种不同版本的模型，以满足不同用户的需求。
- flux.1(pro)：顶级性能版本，提供最先进的图像生成能力，适用于商业用途，能为专业用户带来高质量的图像输出。
- flux.1(dev)：这是开放权重的非商业用途版本，性能接近(pro)版，非常适合学术研究和开发，为研究人员提供了一个强大的工具来探索和创新。
- flux.1(schnell)：该版本是专为本地开发和个人使用设计的快速版本，在速度和质量上都超越了许多竞品，被称为“迄今为止最先进的少步骤模型”，即使在个人设备上也能实现高效的图像生成。
创新的技术架构
- 流匹配训练方法：改进了传统扩散模型的训练过程，不仅简化了流程，还大大提高了生成质量，使得生成的图像更加逼真、细腻。
- 旋转位置嵌入：能够增强模型对图像不同位置特征的识别能力，从而更好地把握图像的整体结构和细节信息，让生成的图像在空间布局上更加合理和准确。
- 并行注意力层：显著提高了模型捕捉长距离依赖关系的能力，这意味着模型可以更好地理解文本和图像之间的复杂关联，进而增强图像生成的准确性和逻辑性。

三、基准测试

FLUX.1 为图像合成领域定义新技术，树立新标。FLUX.1 [pro] 和 [dev] 在视觉质量、提示跟随、大小纵横比可变性、排版和输出多样性上超越 Midjourney v6.0、DALL・E 3（HD）和 SD3-Ultra。FLUX.1 [schnell] 是最先进少步模型，性能超同级对手及 Midjourney v6.0 和 DALL・E 3（高清）。经微调保留输出多样性，比当前最先进技术有极大改进可能，如高质量图像生成、精准提示跟随和快速生成速度。
在这里插入图片描述

四、本地部署推理

要在本地部署 FLUX 进行推理，可以按照以下步骤进行：

1. 安装依赖环境

确保你的系统满足一定的硬件要求，尤其是对于显存的需求。根据不同的版本，FLUX 可能需要较高的显存才能正常运行。安装必要的软件和库，如 Python、PyTorch 等。可以根据官方文档的指导进行安装，确保版本兼容性。与 diffusers 一起使用

pip install git+https://github.com/huggingface/diffusers.git

2. 下载模型

从官方提供的渠道下载 FLUX 的模型文件。对于 flux.1(schnell)版本，可以在相关地址如 https://huggingface.co/black-forest-labs/FLUX.1-schnell 找到下载链接。也可以参考如下modelscope 下载方式：

pip install modelscope

使用 modelscope 中的 snapshot_download 函数下载模型。第一个参数为模型名称，参数 cache_dir 用于指定模型的下载路径。

#模型下载
from modelscope import snapshot_download
model_dir = snapshot_download('licyks/FLUX.1-schnell')

将下载的模型文件保存到合适的位置，并确保路径设置正确。

3. 运行推理代码

参考官方提供的示例代码或文档，编写自己的推理代码。可以使用 Python 等编程语言，调用 FLUX 的模型接口进行图像生成。
在代码中，传入文本提示词，设置生成参数，如图像尺寸、生成步数等。
运行代码，等待模型生成图像。可以根据需要对生成的图像进行保存、展示或进一步处理。


import torch
from diffusers import FluxPipeline

pipe = FluxPipeline.from_pretrained("black-forest-labs/FLUX.1-schnell", torch_dtype=torch.bfloat16)
pipe.enable_model_cpu_offload() #save some VRAM by offloading the model to CPU. Remove this if you have enough GPU power

prompt = "A cat holding a sign that says hello world"
image = pipe(
    prompt,
    guidance_scale=0.0,
    output_type="pil",
    num_inference_steps=4,
    max_sequence_length=256,
    generator=torch.Generator("cpu").manual_seed(0)
).images[0]
image.save("flux-schnell.png")

在本地部署推理过程中，可能会遇到一些问题，如显存不足、安装错误等。可以参考官方文档、社区论坛或寻求技术支持来解决这些问题。同时，为了获得更好的性能和效果，可以不断尝试不同的参数设置和提示词，探索 FLUX 的更多可能性。

五、注意事项与挑战

硬件要求较高：尽管 FLUX 提供了不同版本以适应不同的使用场景，但相对来说，它对硬件配置还是有一定要求的。例如，量化版本可能需要较高的显存，这对于一些硬件条件有限的用户来说可能是一个挑战。在使用时，用户需要根据自己的硬件情况选择合适的版本，并确保硬件能够满足模型的运行需求。
提示词的优化：为了获得理想的图像生成效果，用户需要精心设计和优化提示词。提示词的准确性、详细程度和创意性都会对生成的图像产生重要影响。因此，用户需要不断尝试和探索，掌握如何撰写有效的提示词，以充分发挥 FLUX 的性能优势。
版权和伦理问题：随着 AI 生成图像的广泛应用，版权和伦理问题也日益受到关注。在使用 FLUX 生成图像时，用户需要注意遵守相关的法律法规和道德规范，确保生成的图像不涉及侵权和不良内容。同时，对于 AI 生成图像的版权归属和使用权限等问题，也需要进一步的明确和规范。

六、结语

开源模型 FLUX 以其强大的性能、丰富的版本、创新的技术架构和在基准测试中的优异表现，在 AI 图像生成领域展现出了巨大的潜力。通过本地部署推理，用户可以更灵活地使用 FLUX 进行图像生成，满足个人和专业需求。然而，我们也应该清醒地认识到，FLUX 仍然面临着一些挑战和问题，需要在不断的发展和应用中逐步完善和解决。

随着技术的不断进步和优化，相信 FLUX 将在更多的领域得到应用和发展，为我们的生活和工作带来更多的惊喜和便利。同时，我们也期待着更多优秀的开源模型的出现，共同推动 AI 图像生成技术的不断发展和创新，让我们能够更加轻松地创造出丰富多彩的视觉世界。

项目资料

项目地址：https://github.com/black-forest-labs/flux
模型试用地址：
huggingface 地址：https://huggingface.co/black-forest-labs/flux.1-schnell 。

在这里插入图片描述

😎 作者介绍：我是寻道AI小兵，资深程序老猿，从业10年+、互联网系统架构师，目前专注于AIGC的探索。
📖 技术交流：欢迎关注【小兵的AI视界】公众号或扫描下方👇二维码，加入技术交流群，开启编程探索之旅。
💘精心准备📚500本编程经典书籍、💎AI专业教程，以及高效AI工具。等你加入，与我们一同成长，共铸辉煌未来。
如果文章内容对您有所触动，别忘了点赞、⭐关注，收藏！加入我，让我们携手同行AI的探索之旅，一起开启智能时代的大门！