【stable diffusion模型】最强文生图模型!Stable Diffusion 3技术报告新鲜出炉:结合DiT,碾压DALL·E 3等模型

前言

上个月,Stability AI 发布了其第三代文生图大模型 Stable Diffusion 3。该模型展现出了超越现有文本到图像生成系统的强大性能,为文本到图像生成技术带来了重大突破。

今天,Stability AI 终于发布了 Stable Diffusion 3 技术报告,帮助我们一窥 Stable Diffusion 3 背后的技术细节。报告要点如下:

众所周知,Stable Diffusion 3 在排版和提示遵循等方面表现出色,超越了 DALL·E 3、Midjourney v6 和 Ideogram v1 等最先进的文本到图像生成系统。其中:

  • 与其他开放模型和封闭源系统相比,Stable Diffusion 3 在视觉美观度、提示遵循和排版等方面表现出色。

  • Stable Diffusion 3 采用了重新加权的矩形流形式,以改善模型性能。与其他矩形流形式相比,它的表现更为稳定。

  • 新的多模态扩散 Transformer(Multimodal Diffusion Transformer,MMDiT)架构使用独立的权重集合来处理图像和语言表示,相比于之前的版本,改善了文本理解和拼写能力。

  • MMDiT 架构结合了 DiT 和矩形流(RF)形式。它使用两个独立的变换器来处理文本和图像嵌入,并在注意力操作中结合两种模态的序列。

  • MMDiT 架构不仅适用于文本到图像生成,还可以扩展到多模态数据,比如视频。

  • 移除内存密集型的 T5 文本编码器可以显著减少 SD3 的内存需求,仅伴随少量性能损失。

图|来自 8B 整流模型的高分辨率样本,展示了其在排版、精确的提示跟随和空间推理,对细节的关注以及各种风格的高图像质量方面的能力。

所有的AI设计工具,安装包、模型和插件,都已经整理好了,👇获取~

在这里插入图片描述

接下来,让我们结合报告,一窥 Stable Diffusion 3 背后的技术细节。

MMDiT架构:Stable Diffusion 3背后的关键技术

MMDiT 架构是 Stable Diffusion 3 背后的关键技术之一。相比传统的单一模态处理方法,MMDiT 架构能够更好地处理文本和图像之间的关系,从而实现更准确、更高质量的图像生成。

图|模型架构。

这一架构采用了独立的权重集合来处理图像和语言表示,这意味着对于文本和图像两种不同的输入模态,MMDiT 分别使用不同的权重参数来进行编码和处理,以此能够更好地捕捉每种模态的特征和信息。

在 MMDiT 架构中,文本和图像的表示分别通过预训练模型进行编码。具体地说,MMDiT 采用了三种不同的文本嵌入器(两个 CLIP 模型和 T5 模型),以及一个改进的自动编码模型来编码图像 token。这些编码器能够将文本和图像输入转换为模型可以理解和处理的格式,为后续的图像生成过程提供了基础。

图|T5 对于复杂提示非常重要,例如,涉及高度细节或较长的拼写文本(第 2 行和第 3 行)。然而,对于大多数提示,在推理时删除 T5 仍然可以达到具有竞争力的性能。

在模型结构上,MMDiT 架构建立在 Diffusion Transformer(DiT)的基础上。由于文本和图像的表示在概念上有所不同,MMDiT 使用了两组独立的权重参数来处理这两种模态。这样一来,模型能够在文本和图像的表示空间中分别进行操作,同时又能够考虑到彼此之间的关联关系,从而实现更好的信息传递和整合。



性能碾压其他文生图模型

通过与其他文本到图像生成模型进行性能比较,Stable Diffusion 3 展现出了明显的优势。在视觉美感、文本遵循和排版等方面,Stable Diffusion 3 都能够超越包括 DALL·E 3、Midjourney v6 和 Ideogram v1 在内的最先进系统。

这一优势主要归功于 MMDiT 架构对图像和文本表示的独立处理,使得模型能够更好地理解和表达文本提示,并生成与之匹配的高质量图像。通过人类评估者提供的例子输出进行比较,Stable Diffusion 3 在视觉美感方面与其他模型相比表现出色。评估者被要求根据图像的美观程度选择最佳结果。结果显示,Stable Diffusion 3 在生成的图像美观度方面优于其他模型。

图|这是一幅异想天开、富有创意的图像,描绘了一种混合了华夫饼和河马的生物。这种富有想象力的生物有着河马独特的、笨重的身体,但它的外观却像一块金棕色的脆皮华夫饼。该生物的皮肤上有华夫饼,还有糖浆般的光泽。这设置在一个超现实的环境中,有趣地结合了河马的自然水域栖息地和早餐餐桌,包括超大的餐具或盘子作为背景。图像唤起一种有趣的荒诞感和烹饪幻想。

评估者根据模型输出与所给提示的一致性来评价模型的文本遵循能力。从测试结果来看,Stable Diffusion 3 在文本遵循方面表现优异,能够更准确地根据提示生成相应的图像内容。

排版指的是模型生成的图像中文本的布局、格式和外观。根据评估者的选择,Stable Diffusion 3 在排版方面也表现出色,能够更好地呈现出给定提示中的文本信息,使生成的图像更具可读性和吸引力。

另外,在不同硬件设备上的性能表现方面,Stable Diffusion 3 也展现出了出色的灵活性

例如,在 RTX 4090 等设备上,最大模型(8B 参数)在进行图像生成时,可以在 34 秒内生成一幅分辨率为 1024x1024 的图像,而且还能够在初期预览阶段提供多种参数模型选择,从 800m 到 8B 参数的模型规模,以进一步消除硬件方面的限制。

在消费者级硬件上,Stable Diffusion 3 依然可以有较快的推断速度,并且资源利用率高。

此外,该技术提供了多种模型规模选择,以满足不同用户和应用场景下的需求,增强了其可扩展性和适用性

Stable Diffusion 3 的提出不仅注重了图像生成的质量,还专注于与文本的对齐和一致性。**其改进的 Prompt Following 功能使得模型能够更好地理解输入文本并根据其创作图像,而不仅仅是简单地产生图像。**这种灵活性使 Stable Diffusion 3 能够根据不同的输入文本生成多样化的图像,满足不同主题和需求。

Stable Diffusion 3 采用了改进的 Rectified Flow(RF)方法,通过线性轨迹将数据和噪声相连接,使得推断路径更直,从而在少量步骤内进行采样。同时,Stable Diffusion 3还引入了一种新的轨迹采样调度,将更多的权重分配给轨迹的中间部分,从而改进了预测任务的难度。这种创新的方法改善了模型的性能,并在文本到图像生成任务中取得了更好的效果。

在文本到图像生成领域,Stable Diffusion 3 的问世标志着技术的重大进步。通过 MMDiT 架构的创新、Rectified Flow 的优化以及对硬件设备和模型规模的灵活调整,Stable Diffusion 3 在视觉美感、文本遵循和排版等方面表现出色,超越了当前的文本到图像生成系统。

Stable Diffusion 3 的诞生,不仅提高了生成图像的质量和准确性,还为未来的创意产业、个性化内容生成、辅助创作工具以及增强现实和虚拟现实应用等领域带来了新的可能性。

未来,随着这项技术的进一步发展和普及,我们可以期待看到更多创新的应用场景和解决方案。

关于AI绘画技术储备

学好 AI绘画 不论是就业还是做副业赚钱都不错,但要学会 AI绘画 还是要有一个学习规划。最后大家分享一份全套的 AI绘画 学习资料,给那些想学习 AI绘画 的小伙伴们一点帮助!

对于0基础小白入门:

如果你是零基础小白,想快速入门AI绘画是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以找到适合自己的学习方案

包括:stable diffusion安装包、stable diffusion0基础入门全套PDF,视频学习教程。带你从零基础系统性的学好AI绘画!

零基础AI绘画学习资源介绍

👉stable diffusion新手0基础入门PDF👈

在这里插入图片描述
在这里插入图片描述

👉AI绘画必备工具👈

在这里插入图片描述

温馨提示:篇幅有限,已打包文件夹,获取方式在:文末

👉AI绘画基础+速成+进阶使用教程👈

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

在这里插入图片描述

温馨提示:篇幅有限,已打包文件夹,获取方式在:文末

👉12000+AI关键词大合集👈

在这里插入图片描述

这份完整版的AI绘画全套学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值