突发!Stable Diffusion 3,可通过API使用啦

专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和_应用_落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!

4月18日,著名开源大模型平台Stability.ai在官网宣布,最新文生图模型Stable Diffusion 3 (简称“SD3”)和 SD3 Turbo可以在API中使用。

据悉,本次继续由知名API管理平台Fireworks AI提供服务。与前两代相比,SD3除了生成的图片质量更高之外,可以更好地理解提示文本中嵌入到图片中的文字。

例如,一个色彩缤纷的魔法世界,天空的中央写着“欢迎来到魔法世界”。

前两个模型版本可能无法将“欢迎来到魔法世界”精准嵌入到图片的指定位置或出现扭曲的文字,而SD3可以轻松实现。

此外,SD3的模型权重将很快向Stability AI会员提供,可以在本地部署、运行SD3。

API地址:https://platform.stability.ai/docs/api-reference?_gl=1*1ldjred*_ga*ODY1NjAxMzA1LjE3MDcyNTYwMTM.*_ga_W4CMY55YQZ*MTcxMzM5NDE4OS40NC4xLjE3MTMzOTQyNTUuMC4wLjA.#tag/Generate/paths/1v2beta1stable-image1generate1sd3/post

Stable Diffusion 3架构简单介绍

今年2月22日,Stability.ai在官网首次展示了SD3并开启候补测试。随后3月5日在arxiv上公布了其论文。

根据其论文介绍,SD3与前两代相比最大技术创新在于,使用了MM-DiT和Flow Matching两种方法来增强模型的输出、训练、优化等,同时支持文本或图像作为提示实现多模态能力。

通常多数文生图模型在生成的过程中,只考虑图像本身而没有充分利用文本信息,所以,输出结果时经常出现“驴头不对马嘴”的情况,甚至是一些无法理解的乱码或者扭曲的图像。

而MM-DiT通过结合Transformer的自注意力机制强大的文本和图像序列处理能力,帮助模型在生成图像时能与文本实现更好的匹配。

当用户输入文本或图像提示时,首先被转换为嵌入表示。文本通过预训练的文本模型编码,而图像则通过预训练的自动编码器转换为潜在空间表示。

MM-DiT会使用一种调制机制来整合时间步和文本条件信息,会将时间步和文本嵌入与图像的潜在表示进行整合。

接着,MM-DiT会利用一系列的调制注意力和多层感知力进一步混合文本和图像特征。这些块允许模型在保留各自模态特征的同时,进行跨模态的信息交流。

为了帮助SD3更好地处理多模态数据,MM-DiT采用了多头注意力机制,允许模型在不同的表示子空间中并行处理信息。

这也是SD3能深度理解文本提示中的嵌入文字主要原因,MMDiT不仅能将文字转换成图片,还能确保图片能够反映出文字中的所有细节。

根据测试数据显示,与DiT、CrossDiT、UViT等方法相比,MM-DiT所有指标上表现都非常出色,并且在内部共享权重集。

Flow Matching是一种用于训练Rectified Flow模型的方法,通过最小化生成路径上的误差来改善模型性能,同时帮助模型学习从随机噪声快速转换到目标图像

在训练过程中,Flow Matching会先定义一个从数据分布到噪声分布的前向过程,这个过程通过一系列的时间步骤来模拟,每个步骤都对应着数据向噪声的逐渐转变。

接着,通过对每个时间步的噪声样本生成一个向量场,可以在概率空间中模拟数据到噪声的转换。

最后,Flow Matching通过最小化一个目标函数来优化生成向量场。该目标函数的作用是帮助模型预测的向量场和真实向量场之间的差异。优化的过程中会尽量减小这个差异,从而提高模型的生成图像预测准确性。

关于SD3更详细的技术解读,小伙伴们可以查看论文。

SD3生成图片展示

根据Stability.ai展示的效果,SD3生成的图片有一些甚至比Midjourney更好,尤其是文字嵌入方面。

一座白色建筑顶部放着一张红色沙发。涂鸦强上写着“城市最佳景观”。

一个印有“他们说在这里思考不好”的纸板箱,纸板箱很大,放在剧场舞台上。

半透明的猪,肚子里有一只更小的猪。

一只奶酪制作的螃蟹,在盘子中。

在山顶上有一位巫师创作了一幅令人惊叹的艺术作品,他用魔法创造了文字"Stable Diffusion 3 API"。

本文素材来源Stability.ai官网、SD3论文,如有侵权请联系删除

END

写在最后

感兴趣的小伙伴,赠送全套AIGC学习资料,包含AI绘画、AI人工智能等前沿科技教程和软件工具,具体看这里。

在这里插入图片描述

AIGC技术的未来发展前景广阔,随着人工智能技术的不断发展,AIGC技术也将不断提高。未来,AIGC技术将在游戏和计算领域得到更广泛的应用,使游戏和计算系统具有更高效、更智能、更灵活的特性。同时,AIGC技术也将与人工智能技术紧密结合,在更多的领域得到广泛应用,对程序员来说影响至关重要。未来,AIGC技术将继续得到提高,同时也将与人工智能技术紧密结合,在更多的领域得到广泛应用。

在这里插入图片描述

一、AIGC所有方向的学习路线

AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

在这里插入图片描述

在这里插入图片描述

二、AIGC必备工具

工具都帮大家整理好了,安装就可直接上手!
在这里插入图片描述

三、最新AIGC学习笔记

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
在这里插入图片描述
在这里插入图片描述

四、AIGC视频教程合集

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

在这里插入图片描述

五、实战案例

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

在这里插入图片描述

若有侵权,请联系删除

  • 7
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Stable Diffusion API 文档是指一个可靠的扩散应用程序接口(API)的文档。扩散API是用于在不同应用程序之间传输数据的一种工具,如社交媒体平台、应用程序开发工具等。 Stable Diffusion API 文档主要包含以下内容: 1. 概述:介绍该API的基本信息,包括其功能、用途和适用范围。 2. 安装和配置:提供使用API的前提条件或配置要求。这些可能包括所需的库和依赖关系,系统要求等。 3. 接口和功能:详细说明API提供的各种接口和功能。这些包括数据传输、身份验证、数据格式等。每个接口都应具有示例代码和详细的参数说明。 4. 错误处理:解释API在处理错误和异常情况时的行为。这可能包括错误代码、消息和建议的处理方法。 5. 安全性:解释如何保护API的安全性,如数据加密、身份验证和访问控制等。 6. 限制和配额:列出与API使用相关的任何限制和配额,如请求速率、数据大小限制等。 7. 示例:提供一些实际的代码示例,演示如何使用API执行常见操作。 8. 常见问题和故障排除:列出一些常见问题和解决方案,以及故障排除技巧。 Stable Diffusion API 文档的目的是使开发人员能够了解和正确使用API。它提供了详细的说明和示例,以帮助开发人员快速上手并解决可能的问题。该文档还可以被用作参考,以便随时查阅API的细节和用法。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值