-
不管是在视频的保真度、长度、稳定性、一致性、分辨率、文字理解等方面,Sora都做到了SOTA(当前最优)。
-
技术细节写得比较泛(防止别人模仿)大概就是用视觉块编码(visual patch)的方式,把不同格式的视频统一编码成了用transformer架构能够训练的embeding,然后引入类似diffusion的unet的方式做在降维和升维的过程中做加噪和去噪,然后把模型做得足够大,大到能够出现涌现能力。
-
简单来说,在别家做视频模型的时候还是基于“小”模型的思路(基于上一帧预测下一帧,并且用文字或者笔刷遮罩做约束)的时候,OpenAI则是用做“大”模型的思路做视频生成——准备足够大量的视频,用多模态模型给视频做标注,把不同格式的视频编码成统一的视觉块嵌入,然后用足够大的网络架构+足够大的训练批次(batch size)+ 足够强的算力,让模型对足够多的训练集做全局拟合(理解),在模型更好地还原细节的同时让模型出现智能涌现能力——例如在一定程度上理解真实世界的物理影响和因果关系。
-
最让人期待(不安)的是,这个视频生成模型仿佛只是OpenAI世界模型(理解和模拟真实世界的各种复杂因果关系的通用模型)路上点亮的一个成就ÿ
Sora专辑|OpenAI大杀器Sora这么火,我们必须了解其背后的技术及其深远的影响
于 2024-02-19 13:53:42 首次发布
OpenAI的Sora模型在视频生成领域达到SOTA水平,使用大模型思路,通过视觉块编码统一不同格式视频,结合时空编码块与扩散模型,实现高保真视频生成。Sora对C端用户和B端企业都将产生深远影响,有望推动内容创作和AI视频生成行业变革,同时对3D生成和显卡市场带来挑战和机遇。
摘要由CSDN通过智能技术生成