OmniGen:统一图像生成和多任务集成模型,任意人物自由合影,8位量化可体验

OmniGen:统一图像生成和多任务处理模型

OmniGen简介

今天文章主题为一款由北京人工智能研究原提出的统一图像框架:OmniGenOmniGen是一个统一的图像生成扩散模型,将多种图像处理任务集成到一个统一的简化框架中。与传统的扩散模型不同,OmniGen无需额外的模块如ControlNetIP-Adapter即可处理多样化的控制条件。OmniGen的特点包括:

    1. 统一性:OmniGen不仅能够执行文本到图像的生成,还内在支持多种下游任务,包括图像编辑、主题驱动生成和视觉条件生成。此外,OmniGen还能通过将它们转化为图像生成任务来处理一些经典计算机视觉任务,如边缘检测人体姿态识别
    1. 简洁性:OmniGen的架构高度简化,消除了对额外文本编码器的需求,使得与现有扩散模型相比更加用户友好。它能够通过指令完成复杂任务,无需额外的预处理步骤,显著简化了图像生成的工作流程
    1. 知识迁移:得益于在统一格式中的学习,OmniGen能够有效地在不同任务之间转移知识,处理未见任务和领域,并展现出新的能力

同时OmniGen团队还探索了模型的推理能力和链式思考机制的潜在应用,这是对通用图像生成模型的首次尝试。总之,OmniGen能够实现灵活和可控的图像生成,包括从文本生成图像、编辑生成图像的部分、基于生成图像中的人体姿态生成重绘,以及从另一图像中提取所需对象并整合到新图像中。它还能处理常见的图像生成任务和一些经典计算机视觉任务,如去模糊、去雨、修复以及人物姿态图和深度图。OmniGen展现了潜在的推理能力和一定程度的上下文学习能力,框架通过模仿人类逐步绘画的过程,迭代细化图像,从而处理更复杂和多样化的场景。此外,OmniGen的设计原则是通用性和简洁性,避免了过于复杂的结构设计和众多额外组件。为了实现强大的多任务处理能力,OmniGen训练了一个大规模和多样化的数据集,称为 X2I数据集,包含约0.1亿张图像

  • Github:https://github.com/VectorSpaceLab/OmniGen

  • 项目主页:https://vectorspacelab.github.io/OmniGen/

  • 在线体验地址:https://huggingface.co/spaces/Shitao/OmniGen

官方演示

灵活可控性

图像主体引用

常见图像任务

经典视觉任务

OmniGen ComfyUI体验

社区已有 @chflame163大佬的 ComfyUI_OmniGen_Wrapper支持ComfyUI中的体验,需要通过插件管理器GIT安装ComfyUI_OmniGen_Wrapper插件。首次运行插件时将自动下载模型。

  • 插件地址:https://github.com/chflame163/ComfyUI_OmniGen_Wrapper

  • Shitao/OmniGen-v1:需要下载Shitao/OmniGen-v1模型全部模型文件,并复制到ComfyUI/models/OmniGen/Shitao/OmniGen-v1文件夹。地址:https://huggingface.co/Shitao/OmniGen-v1/tree/main

  • stabilityai/sdxl-vae:同时还需要从stabilityai/sdxl-vae中下载 diffusion_pytorch_model.safetensorsconfig.json 两个文件,并复制到ComfyUI/models/OmniGen/Shitao/OmniGen-v1/vae 文件夹。地址:https://huggingface.co/stabilityai/sdxl-vae/tree/main

  • • 除了从上述huggingface下载外,还可以用 @chflame163大佬的网盘下载:https://pan.baidu.com/s/1uivyo_voaZ668nT3aMLw8Q?pwd=ma06

Flux文生图工作流

Flux文生图感兴趣的同学可参考LIBLIB在线运行工作流:FLUX[续篇]:12B参数23G最大开源文生图模型,Dev版直出惊艳美图欣赏

本文涉及ComfyUI工作流和模型均可在LIBLIBAI上下载或在线运行体验:

• FLUX.1哩布在线可运行-黑暗森林工作室:

https://www.liblib.art/modelinfo/488cd9d58cd4421b9e8000373d7da123

• F.1-绮梦流光-水湄凝香:

https://www.liblib.art/modelinfo/134c6dd95aef48e98a22b24e003e026b

• 工作流-Flux文|图生图+LORA+提示反推一键切换工作流:

https://www.liblib.art/modelinfo/782aacd70f604da39e83368c696a02a8

OmniGen工作流

OmniGen工作流已上传LIBLIB平台下载:https://www.liblib.art/modelinfo/81d3c1ecb65f43ae92655648ebd7c064?versionUuid=7ec708a1ecdf47b1826734cd1ea3a33b

OmniGen核心节点

  • image_1: 可选输入图片1。如果输入,须在prompt中描述此图,用{imgae_1}指代

  • image_2: 可选输入图片2。如果输入,须在prompt中描述此图,用{imgae_2}指代

  • image_3: 可选输入图片3。如果输入,须在prompt中描述此图,用{imgae_3}指代

  • dtype: 模型精度,default为模型默认精度, 可选int8。默认精度大约占用12GB显存,int8大约占用7GB显存

  • prompt: 生成图片的提示词。如果有图片输入,请用{imgae_1}、{imgae_2}、{imgae_3}指代

  • width: 生成图片的宽度,必须为16的倍数

  • height: 生成图片的高度,必须为16的倍数

  • guidance_scale: 引导比例。较高的值会使模型的生成结果更倾向于条件,但可能损失图像的多样性和自由度。

  • image_guidance_scale: 图片引导比例。

  • steps: 图片生成推理步数。

  • separate_cfg_infer: 在不同引导下分别对图像进行推理;这可以在生成大尺寸图像时节省内存,但会使推理速度变慢。

  • use_kv_cache: 使用kv缓存以加快推理速度。

  • seed: 随机种子。推理使用不同的种子产生不同结果。

  • control_after_generatel: 每次运行时种子值变化选项。

  • cache_model: 设置为True时缓存模型,下次运行无需再次加载模型。

注意

  • • 提示词需要按照固定格式 **{imgae_1}**引用对应图像,模型会自动编码为 <img><|image_1|></img> 格式。示例提示2 person in the photo, The person in {image_1} on left and the person in {image_2} on right

  • • 在1张图25步情况下,8位量化需要56.59秒。默认全精度则需要69.34秒

8位量化:

全全精度:

01. 基础文生图

(masterpiece, top quality, best quality, official art, beautiful and aesthetic:1.2), (1girl), extreme detailed,(fractal art:1.3),colorful,highest detailed..

02. 多图融合

测试中发现对输入图质量和角度要求较高(尽量使用正面高清图),实际出图与提示位置理解遵循仍需要抽卡。另外S****DXL的手问题仍让是大问题

 2 person in the photo, The person in {image_1} on  left and the person in {image_2} on  right 

03. 美女合影

2 person in the photo, The person in {image_1} on  left and the person in {image_2} on  right 

03. 单图识别

OmniGen不仅支持文生图、多图融合,同时还支持单图编辑功能(标注物体、改变物流艳色、移除物体、生成pose图、生成深度图、生成线稿图等)。但由于插件当前可能存在issue,无法测试,将在后续文章补充。另外笔者之所以选择**@chflame163大佬的ComfyUI_OmniGen_Wrapper**这款ComfyUI插件,因为测试出图效果这是最能接受的插件,不满意的出图质量是一直推迟推文的原因。

写在最后

感兴趣的小伙伴,赠送全套AIGC学习资料,包含AI绘画、AI人工智能等前沿科技教程和软件工具,具体看这里。
在这里插入图片描述

AIGC技术的未来发展前景广阔,随着人工智能技术的不断发展,AIGC技术也将不断提高。未来,AIGC技术将在游戏和计算领域得到更广泛的应用,使游戏和计算系统具有更高效、更智能、更灵活的特性。同时,AIGC技术也将与人工智能技术紧密结合,在更多的领域得到广泛应用,对程序员来说影响至关重要。未来,AIGC技术将继续得到提高,同时也将与人工智能技术紧密结合,在更多的领域得到广泛应用。

在这里插入图片描述

一、AIGC所有方向的学习路线

AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

在这里插入图片描述

在这里插入图片描述

二、AIGC必备工具

工具都帮大家整理好了,安装就可直接上手!
在这里插入图片描述

三、最新AIGC学习笔记

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
在这里插入图片描述
在这里插入图片描述

四、AIGC视频教程合集

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

在这里插入图片描述

五、实战案例

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值