51-37 由浅入深理解 Stable Diffusion 3

深圳季连AIgraphX

已于 2024-04-17 11:13:14 修改

阅读量1.2k

点赞数 22

分类专栏： aiXpilot 智驾大模型文章标签： stable diffusion 自动驾驶 AIGC 智慧城市计算机视觉人工智能

于 2024-04-07 19:26:37 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45035094/article/details/137397348

版权

aiXpilot 智驾大模型专栏收录该内容

58 篇文章 33 订阅 ¥89.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了Stability AI的Stable Diffusion 3模型，该模型在潜在扩散模型的基础上，通过Autoencoder降低训练需求，采用条件控制提升生成效率。文章详细探讨了LDM架构、条件编码器、U-Net改进以及Rectified Flow的噪声采样技术，展示了其在文本到图像生成领域的优势。通过大规模实验，证明了新方法在性能和效率上的优越性。

摘要由CSDN通过智能技术生成

2024年3月5日，Stability AI公开Stable Diffusion 3论文，Scaling Rectified Flow Transformers for High-Resolution Image Synthesis。公司像往常一样承诺后续将开源代码，开源之光！！！

在LDW潜在扩散模型论文部分，我们简要回顾了AE、VAE、VQ-VAE、VQ-GAN、DDPM等内容。由于Stable Diffusion是以潜在扩散模型LDW升级而来，在这里咱们简要回顾一下。

Latent Diffusion Model Review

LDM Architecture

LDM 模型架构，为了降低训练扩散模型对算力的需求，LDM使用Autoencoder去学习能尽量表达原始image pixel space的低维潜在空间表达（latent embedding）。

相对于DDPM，LDM主要改进了两点

加入Autoencoder&#x

了解本专栏

超级会员免费看

深圳季连AIgraphX

关注

22
点赞
踩
28

收藏

觉得还不错? 一键收藏
打赏
0
评论
51-37 由浅入深理解 Stable Diffusion 3

SD3，艺术与科技的融合，它不仅能够理解复杂的提示词，还能将这些提示词转化为高质量的图像。其基于Rectified Flow生成模型，引入谷歌T5-XXL来理解复杂提示词，采用多模态MM-DiT架构，并且将模型参数量扩展为8B，用户输入简单的描述，就能创造出令人惊叹的艺术作品。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

深圳季连AIgraphX 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。