Sora大模型需要多少AI芯片？

最新推荐文章于 2024-11-04 10:51:20 发布

HongYingClub

最新推荐文章于 2024-11-04 10:51:20 发布

阅读量677

点赞数 6

分类专栏： AIGC 文章标签：人工智能云计算 chatgpt AI作画 DALL·E 2 AIGC gpu算力

本文链接：https://blog.csdn.net/weixin_43906282/article/details/137727658

版权

Sora模型使用Diffusion Transformer架构，生成高质量视频，参数预期约为30亿，远低于GPT系列。技术派认为其算力需求不高，但券商预测可能需要现有模型的50倍以上算力。华为910B芯片在性能和互联速度上有竞争力，随着美国对华芯片限制，国产AI芯片迎来发展机会，华为等国产芯片已被百度和360等科技大厂采购。

摘要由CSDN通过智能技术生成

一、结论

1、sora模型的核心创新在于，它将视频中的每一帧图像视为一连串的标记进行训练，这让模型能够根据输入，生成高质量的视频。另外，Sora模型采用的Diffusion Transformer架构，能够通过预测原始"干净"的补丁来从输入的噪声补丁中生成视频。

2、Sora大模型发布后，国内外投资人都在猜测到底需要多少算力才能复制类似的大模型。目前市场上说法存在较大差异：券商研究报告中给出较为激进的算法，出发点虽然不同，但都能得出相似的结论，即OpenAI所需算力是现在的几十倍；技术派则一致认为Sora模型的真实参数不大，预期只有30亿，因此认为算力需求不高。

3、目前国内华为的910B芯片算力能与A100媲美，性能预期能达到其80%以上，互联速度能达到400GB，算力集群的使用效率可能经常会不到50%。国产算力芯片与英伟达芯片确实存在差距，但国内芯片性能逐渐在不断提升，考虑到供应链安全问题，国内科技大厂已经开始购买华为等国产芯片，过程AI芯片预期迎来高光时刻。

二、技术派一致认为Sora模型参数不高，算力需求并不多

据官网信息，目前Sora可生成最长约60S的视频，较此前发布的文生视频模型如Pika、Runway等，视频时长有明显提升。画质方面，Sora支持分辨率达2048×2048，呈现效果突出。OpenAI表示Sora能够生成复杂的场景，不仅包括多个角色，还有特定的动作类型，以及对对象和背景的准确细节描绘。此外，Sora有时可以用简单的方式模拟影响真实世界的具体动作，例如“一个男人可以吃汉堡并留下咬痕”，这是之前的文本生成视频难以达到的能力。

虽然Sora模型生成视频效果显著，但从技术角度而言Sora本身所需参数并不多。因Sora模型并未开源，现在网上的各种说法也只是基于其过往学术经验得出结论，只能说短期内无法被证伪。

B站卢菁老师认为Sora模型=VAE encoder+DiT (DDPM)+VAE decoder+CLIP，Sora整体训练流程如下图所示，包括视频编码（红色区域）+Stable diffusion（DiT，绿色区域）+语言模型（灰色区域），具体训练如下所示：

（1）Encoder的作用是将图片&视频的Patch进行压缩，得到一个向量长度变短Patchÿ