Sora大模型需要多少AI芯片?

Sora模型使用Diffusion Transformer架构,生成高质量视频,参数预期约为30亿,远低于GPT系列。技术派认为其算力需求不高,但券商预测可能需要现有模型的50倍以上算力。华为910B芯片在性能和互联速度上有竞争力,随着美国对华芯片限制,国产AI芯片迎来发展机会,华为等国产芯片已被百度和360等科技大厂采购。
摘要由CSDN通过智能技术生成

一、结论

1、sora模型的核心创新在于,它将视频中的每一帧图像视为一连串的标记进行训练,这让模型能够根据输入,生成高质量的视频。另外,Sora模型采用的Diffusion Transformer架构,能够通过预测原始"干净"的补丁来从输入的噪声补丁中生成视频。

2、Sora大模型发布后,国内外投资人都在猜测到底需要多少算力才能复制类似的大模型。目前市场上说法存在较大差异:券商研究报告中给出较为激进的算法,出发点虽然不同,但都能得出相似的结论,即OpenAI所需算力是现在的几十倍;技术派则一致认为Sora模型的真实参数不大,预期只有30亿,因此认为算力需求不高。

3、目前国内华为的910B芯片算力能与A100媲美,性能预期能达到其80%以上,互联速度能达到400GB,算力集群的使用效率可能经常会不到50%。国产算力芯片与英伟达芯片确实存在差距,但国内芯片性能逐渐在不断提升,考虑到供应链安全问题,国内科技大厂已经开始购买华为等国产芯片,过程AI芯片预期迎来高光时刻。

二、技术派一致认为Sora模型参数不高,算力需求并不多

据官网信息,目前Sora可生成最长约60S的视频,较此前发布的文生视频模型如Pika、Runway等,视频时长有明显提升。画质方面,Sora支持分辨率达2048×2048,呈现效果突出。OpenAI表示Sora能够生成复杂的场景,不仅包括多个角色,还有特定的动作类型,以及对对象和背景的准确细节描绘。此外,Sora有时可以用简单的方式模拟影响真实世界的具体动作,例如“一个男人可以吃汉堡并留下咬痕”,这是之前的文本生成视频难以达到的能力。

虽然Sora模型生成视频效果显著,但从技术角度而言Sora本身所需参数并不多。因Sora模型并未开源,现在网上的各种说法也只是基于其过往学术经验得出结论,只能说短期内无法被证伪。

B站卢菁老师认为Sora模型=VAE encoder+DiT (DDPM)+VAE decoder+CLIP,Sora整体训练流程如下图所示,包括视频编码(红色区域)+Stable diffusion(DiT,绿色区域)+语言模型(灰色区域),具体训练如下所示:

(1)Encoder的作用是将图片&视频的Patch进行压缩,得到一个向量长度变短Patchÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

HongYingClub

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值