Sora专辑|OpenAI大杀器Sora这么火，我们必须了解其背后的技术及其深远的影响

明矛顿了

已于 2024-02-21 14:02:17 修改

阅读量740

点赞数 26

分类专栏：人工智能篇文章标签：人工智能 AIGC chatgpt 视频

于 2024-02-19 13:53:42 首次发布

本文链接：https://blog.csdn.net/weixin_68987230/article/details/136168798

版权

8 篇文章 0 订阅 ¥19.90 ¥99.00

订阅专栏

OpenAI的Sora模型在视频生成领域达到SOTA水平，使用大模型思路，通过视觉块编码统一不同格式视频，结合时空编码块与扩散模型，实现高保真视频生成。Sora对C端用户和B端企业都将产生深远影响，有望推动内容创作和AI视频生成行业变革，同时对3D生成和显卡市场带来挑战和机遇。

摘要由CSDN通过智能技术生成

不管是在视频的保真度、长度、稳定性、一致性、分辨率、文字理解等方面，Sora都做到了SOTA（当前最优）。
技术细节写得比较泛（防止别人模仿）大概就是用视觉块编码（visual patch）的方式，把不同格式的视频统一编码成了用transformer架构能够训练的embeding，然后引入类似diffusion的unet的方式做在降维和升维的过程中做加噪和去噪，然后把模型做得足够大，大到能够出现涌现能力。
简单来说，在别家做视频模型的时候还是基于“小”模型的思路（基于上一帧预测下一帧，并且用文字或者笔刷遮罩做约束）的时候，OpenAI则是用做“大”模型的思路做视频生成——准备足够大量的视频，用多模态模型给视频做标注，把不同格式的视频编码成统一的视觉块嵌入，然后用足够大的网络架构+足够大的训练批次（batch size）+ 足够强的算力，让模型对足够多的训练集做全局拟合（理解），在模型更好地还原细节的同时让模型出现智能涌现能力——例如在一定程度上理解真实世界的物理影响和因果关系。
最让人期待（不安）的是，这个视频生成模型仿佛只是OpenAI世界模型（理解和模拟真实世界的各种复杂因果关系的通用模型）路上点亮的一个成就ÿ