51-36 DiT，视频生成模型Sora背后的核心技术

深圳季连AIgraphX

已于 2024-04-17 10:33:36 修改

阅读量1.4k

点赞数 16

分类专栏： aiXpilot 智驾大模型文章标签： stable diffusion AIGC 自动驾驶智慧城市计算机视觉

于 2024-04-07 08:58:11 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45035094/article/details/137280044

版权

aiXpilot 智驾大模型专栏收录该内容

该专栏为热销专栏榜第96名

58 篇文章 34 订阅 ¥89.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了Diffusion Transformers (DiTs)，一种新型的扩散模型架构，它结合了Transformer和DDPMs的优势。DiT通过Transformer处理潜在空间表示，展示了可扩展性和性能之间的强相关性。在实验中，DiT在256×256和512×512 ImageNet上的FID得分优于现有扩散模型，证实了其在图像生成领域的潜力。DiT被认为是OpenAI视频生成模型Sora的核心技术之一。

摘要由CSDN通过智能技术生成

今天跟进的是Meta、UC Berkeley Wiliam Peebles、New York University Saining Xie的联合工作Scalable Diffusion Models with Transformers。2022年12月发布，Wiliam Peebles在Meta AI实习期间完成该论文，现就职于OpenAI。

扩散模型是一种深度学习生成模型，可生成各种各样的高分辨率图像或视频，主要办法是模拟数据逐步去噪过程来生成新样本（采样）。Diffusion Transformers，DiTs遵循ViTs最佳实践，是一种新型扩散模型，结合了DDPMs和Transformer各自的特点。

DiT核心思想是使用Transformer取代U-Net主干作为扩散模型骨干网络，以处理图像潜在表示。其关键特点有：

基于Transformer架构: DiT采用Transformer作为核心架构，这使得模型能够处理图像的序列化表示，并通过自注意力机制捕捉图像中的长距离依赖关系。
潜在空间操作: DiT在潜在空间中训练，通过使用变分自编码器(VAE)将图像编码到潜在空间，然后Patchify，将空间输入转换为T个tokens的序列。
多种Transform

了解本专栏

超级会员免费看

深圳季连AIgraphX

关注

16
点赞
踩
20

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

深圳季连AIgraphX 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。