17B开源图像生成模型：HiDream-I1-Full

最新推荐文章于 2025-04-26 09:04:44 发布

Panesle

最新推荐文章于 2025-04-26 09:04:44 发布

阅读量1.6k

点赞数 45

分类专栏：前沿文章标签： python 算法文生图大冒险开源

本文链接：https://blog.csdn.net/weixin_52582710/article/details/147112811

版权

前沿专栏收录该内容

73 篇文章

订阅专栏

在这里插入图片描述

HiDream-I1: 开源图像生成模型的技术突破与应用指南

第一章：引言

HiDream-I1 是一款由 HiDream-ai 团队开发的开源图像生成基础模型，拥有 17B 参数规模。该模型能够在几秒钟内生成高质量图像，涵盖多种风格（包括写实、卡通、艺术风格等），并在多个基准测试中达到行业领先水平。

作为一款遵循 MIT 许可协议的开源项目，HiDream-I1 旨在推动科学研究进步，并为创意创新提供工具支持。其生成的图像可用于个人项目、科学研究和商业应用，展现了极高的实用性和灵活性。

第二章：性能表现

2.1 图像质量

HiDream-I1 在图像生成质量方面表现出色，尤其在 HPS v2.1 基准测试中取得了领先成绩。该测试通过人类偏好评分衡量图像质量，HiDream-I1 的表现优于多个竞争对手，包括 DALL-E 3 和 SDXL 等知名模型。

| 模型名称 | Overall | Entity | Attribute | Relation | Other |
| --- | --- | --- | --- | --- | --- |
| PixArt-alpha | 71.11 | 74.97 | 79.32 | 78.60 | 82.57 |
| SDXL | 74.65 | 83.27 | 82.43 | 80.91 | 86.76 |
| DALL-E 3 | 83.50 | 90.97 | 89.61 | 88.39 | 90.58 |
| Flux.1-dev | 83.79 | 85.80 | 86.79 | 89.98 | 90.04 |
| HiDream-I1 | | 76.44 | | | |

2.2 提示词遵循能力

在 GenEval 和 DPG 基准测试中，HiDream-I1 展现了卓越的提示词遵循能力，能够准确将用户输入的文本提示转化为符合要求的图像。其在 DPG-Bench 测试中的表现尤为突出，多个指标领先于竞争对手。

模型名称	Overall	Single Obj.	Two Obj.	Counting	Colors	Position	Color attribution
SDXL	0.55	0.98	0.74	0.39	0.85	0.15	0.23
PixArt-alpha	0.48	0.98	0.50	0.44	0.80	0.08	0.07
Flux.1-dev	0.66	0.98	0.79	0.73	0.77	0.22	0.45
DALL-E 3	0.67	0.96	0.87	0.47	0.83	0.43	0.45
HiDream-I1	0.83	1.00	0.98	0.79	0.91	0.60	0.72

2.3 多风格生成能力

HiDream-I1 在不同艺术风格的图像生成中表现出色，尤其在动画、概念艺术、绘画和摄影风格方面均取得了高分。其在动画风格生成中的表现尤为突出，领先于 Midjourney V5 和 SD3 等模型。

模型名称	Averaged	Animation	Concept-art	Painting	Photo
Stable Diffusion v2.0	26.38	27.09	26.02	25.68	26.73
Midjourney V6	30.29	32.02	30.29	29.74	29.10
SDXL	30.64	32.84	31.36	30.86	27.48
DALL-E 3	31.44	32.39	31.09	31.18	31.09
HiDream-I1	33.82	35.05	33.74	33.88	32.61

第三章：使用方法

3.1 环境准备

在使用 HiDream-I1 之前，需要确保系统已安装 Flash Attention，并推荐使用 CUDA 12.4 版本以获得最佳性能。以下是基本安装步骤：

pip install -r requirements.txt
git clone https://github.com/HiDream-ai/HiDream-I1

3.2 推理脚本运行

HiDream-I1 提供了三种推理模式，用户可根据需求选择合适的模型类型：

# 完整模型推理
python ./inference.py --model_type full

# 精简开发模型推理
python ./inference.py --model_type dev

# 快速推理模型
python ./inference.py --model_type fast

3.3 Gradio 交互式演示

HiDream-I1 还提供了一个基于 Gradio 的交互式图像生成演示，用户可通过以下命令启动：

python gradio_demo.py

该演示允许用户实时输入提示词并生成图像，便于快速测试模型能力。

第四章：许可协议与法律声明

HiDream-I1 的 Transformer 模型部分遵循 MIT 许可协议，允许自由使用、修改和分发。然而，模型的其他组件遵循不同的许可条款：

VAE 组件来自 FLUX.1，遵循 Apache 2.0 许可协议
文本编码器来自 google/t5-v1_1-xxl 和 meta-llama/Meta-Llama-3.1-8B-Instruct，分别遵循 Apache 2.0 和 Llama 3.1 社区许可协议

用户拥有使用该模型创建的所有内容，并可自由使用这些内容，但必须遵守上述许可协议。特别需要注意的是，用户不得使用该模型生成非法内容、有害材料、可能伤害他人的个人信息、虚假信息或针对弱势群体的内容。

第五章：其他

HiDream-I1 的开发团队对以下项目和团队表示感谢：

FLUX.1 团队提供的 VAE 组件
Google 提供的 T5 文本编码器
Meta 团队提供的 Llama 模型

这些组件和模型为 HiDream-I1 的开发提供了重要支持，使其能够在图像生成领域取得突破性进展。