一、结论
1、sora模型的核心创新在于,它将视频中的每一帧图像视为一连串的标记进行训练,这让模型能够根据输入,生成高质量的视频。另外,Sora模型采用的Diffusion Transformer架构,能够通过预测原始"干净"的补丁来从输入的噪声补丁中生成视频。
2、Sora大模型发布后,国内外投资人都在猜测到底需要多少算力才能复制类似的大模型。目前市场上说法存在较大差异:券商研究报告中给出较为激进的算法,出发点虽然不同,但都能得出相似的结论,即OpenAI所需算力是现在的几十倍;技术派则一致认为Sora模型的真实参数不大,预期只有30亿,因此认为算力需求不高。
3、目前国内华为的910B芯片算力能与A100媲美,性能预期能达到其80%以上,互联速度能达到400GB,算力集群的使用效率可能经常会不到50%。国产算力芯片与英伟达芯片确实存在差距,但国内芯片性能逐渐在不断提升,考虑到供应链安全问题,国内科技大厂已经开始购买华为等国产芯片,过程AI芯片预期迎来高光时刻。
二、技术派一致认为Sora模型参数不高,算力需求并不多
据官网信息,目前Sora可生成最长约60S的视频,较此前发布的文生视频模型如Pika、Runway等,视频时长有明显提升。画质方面,Sora支持分辨率达2048×2048,呈现效果突出。OpenAI表示Sora能够生成复杂的场景,不仅包括多个角色,还有特定的动作类型,以及对对象和背景的准确细节描绘。此外,Sora有时可以用简单的方式模拟影响真实世界的具体动作,例如“一个男人可以吃汉堡并留下咬痕”,这是之前的文本生成视频难以达到的能力。
虽然Sora模型生成视频效果显著,但从技术角度而言Sora本身所需参数并不多。因Sora模型并未开源,现在网上的各种说法也只是基于其过往学术经验得出结论,只能说短期内无法被证伪。
B站卢菁老师认为Sora模型=VAE encoder+DiT (DDPM)+VAE decoder+CLIP,Sora整体训练流程如下图所示,包括视频编码(红色区域)+Stable diffusion(DiT,绿色区域)+语言模型(灰色区域),具体训练如下所示:
(1)Encoder的作用是将图片&视频的Patch进行压缩,得到一个向量长度变短Patchÿ