Sora专辑|OpenAI大杀器Sora这么火,我们必须了解其背后的技术及其深远的影响

OpenAI的Sora模型在视频生成领域达到SOTA水平,使用大模型思路,通过视觉块编码统一不同格式视频,结合时空编码块与扩散模型,实现高保真视频生成。Sora对C端用户和B端企业都将产生深远影响,有望推动内容创作和AI视频生成行业变革,同时对3D生成和显卡市场带来挑战和机遇。
摘要由CSDN通过智能技术生成
  • 不管是在视频的保真度、长度、稳定性、一致性、分辨率、文字理解等方面,Sora都做到了SOTA(当前最优)。

  • 技术细节写得比较泛(防止别人模仿)大概就是用视觉块编码(visual patch)的方式,把不同格式的视频统一编码成了用transformer架构能够训练的embeding,然后引入类似diffusion的unet的方式做在降维和升维的过程中做加噪和去噪,然后把模型做得足够大,大到能够出现涌现能力。

  • 简单来说,在别家做视频模型的时候还是基于“小”模型的思路(基于上一帧预测下一帧,并且用文字或者笔刷遮罩做约束)的时候,OpenAI则是用做“大”模型的思路做视频生成——准备足够大量的视频,用多模态模型给视频做标注,把不同格式的视频编码成统一的视觉块嵌入,然后用足够大的网络架构+足够大的训练批次(batch size)+ 足够强的算力,让模型对足够多的训练集做全局拟合(理解),在模型更好地还原细节的同时让模型出现智能涌现能力——例如在一定程度上理解真实世界的物理影响和因果关系。

  • 最让人期待(不安)的是,这个视频生成模型仿佛只是OpenAI世界模型(理解和模拟真实世界的各种复杂因果关系的通用模型)路上点亮的一个成就ÿ

  • 26
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

明矛顿了

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值