17B开源图像生成模型:HiDream-I1-Full

在这里插入图片描述

HiDream-I1: 开源图像生成模型的技术突破与应用指南

第一章:引言

HiDream-I1 是一款由 HiDream-ai 团队开发的开源图像生成基础模型,拥有 17B 参数规模。该模型能够在几秒钟内生成高质量图像,涵盖多种风格(包括写实、卡通、艺术风格等),并在多个基准测试中达到行业领先水平。

作为一款遵循 MIT 许可协议的开源项目,HiDream-I1 旨在推动科学研究进步,并为创意创新提供工具支持。其生成的图像可用于个人项目、科学研究和商业应用,展现了极高的实用性和灵活性。

第二章:性能表现

2.1 图像质量

HiDream-I1 在图像生成质量方面表现出色,尤其在 HPS v2.1 基准测试中取得了领先成绩。该测试通过人类偏好评分衡量图像质量,HiDream-I1 的表现优于多个竞争对手,包括 DALL-E 3 和 SDXL 等知名模型。

| 模型名称 | Overall | Entity | Attribute | Relation | Other |
| --- | --- | --- | --- | --- | --- |
| PixArt-alpha | 71.11 | 74.97 | 79.32 | 78.60 | 82.57 |
| SDXL | 74.65 | 83.27 | 82.43 | 80.91 | 86.76 |
| DALL-E 3 | 83.50 | 90.97 | 89.61 | 88.39 | 90.58 |
| Flux.1-dev | 83.79 | 85.80 | 86.79 | 89.98 | 90.04 |
| HiDream-I1 |  | 76.44 |  |  |  |

2.2 提示词遵循能力

在 GenEval 和 DPG 基准测试中,HiDream-I1 展现了卓越的提示词遵循能力,能够准确将用户输入的文本提示转化为符合要求的图像。其在 DPG-Bench 测试中的表现尤为突出,多个指标领先于竞争对手。

模型名称OverallSingle Obj.Two Obj.CountingColorsPositionColor attribution
SDXL0.550.980.740.390.850.150.23
PixArt-alpha0.480.980.500.440.800.080.07
Flux.1-dev0.660.980.790.730.770.220.45
DALL-E 30.670.960.870.470.830.430.45
HiDream-I10.831.000.980.790.910.600.72

2.3 多风格生成能力

HiDream-I1 在不同艺术风格的图像生成中表现出色,尤其在动画、概念艺术、绘画和摄影风格方面均取得了高分。其在动画风格生成中的表现尤为突出,领先于 Midjourney V5 和 SD3 等模型。

模型名称AveragedAnimationConcept-artPaintingPhoto
Stable Diffusion v2.026.3827.0926.0225.6826.73
Midjourney V630.2932.0230.2929.7429.10
SDXL30.6432.8431.3630.8627.48
DALL-E 331.4432.3931.0931.1831.09
HiDream-I133.8235.0533.7433.8832.61

第三章:使用方法

3.1 环境准备

在使用 HiDream-I1 之前,需要确保系统已安装 Flash Attention,并推荐使用 CUDA 12.4 版本以获得最佳性能。以下是基本安装步骤:

pip install -r requirements.txt
git clone https://github.com/HiDream-ai/HiDream-I1

3.2 推理脚本运行

HiDream-I1 提供了三种推理模式,用户可根据需求选择合适的模型类型:

# 完整模型推理
python ./inference.py --model_type full

# 精简开发模型推理
python ./inference.py --model_type dev

# 快速推理模型
python ./inference.py --model_type fast

3.3 Gradio 交互式演示

HiDream-I1 还提供了一个基于 Gradio 的交互式图像生成演示,用户可通过以下命令启动:

python gradio_demo.py

该演示允许用户实时输入提示词并生成图像,便于快速测试模型能力。

第四章:许可协议与法律声明

HiDream-I1 的 Transformer 模型部分遵循 MIT 许可协议,允许自由使用、修改和分发。然而,模型的其他组件遵循不同的许可条款:

  • VAE 组件来自 FLUX.1,遵循 Apache 2.0 许可协议

  • 文本编码器来自 google/t5-v1_1-xxl 和 meta-llama/Meta-Llama-3.1-8B-Instruct,分别遵循 Apache 2.0 和 Llama 3.1 社区许可协议

用户拥有使用该模型创建的所有内容,并可自由使用这些内容,但必须遵守上述许可协议。特别需要注意的是,用户不得使用该模型生成非法内容、有害材料、可能伤害他人的个人信息、虚假信息或针对弱势群体的内容。

第五章:其他

HiDream-I1 的开发团队对以下项目和团队表示感谢:

  • FLUX.1 团队提供的 VAE 组件

  • Google 提供的 T5 文本编码器

  • Meta 团队提供的 Llama 模型

这些组件和模型为 HiDream-I1 的开发提供了重要支持,使其能够在图像生成领域取得突破性进展。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值