一篇Sora模型小白扫盲文——《Sora技术报告》总结

Sora技术报告的核心总结

根据目前公开的一些信息,我个人将Sora技术报告一文中的核心内容总结如下,分别为训练过程的开创性优化技术、模型支持的能力、模型的缺陷。

一、训练过程开创性优化技术

1.ChatGPT的分词(token)处理取得了很好的一致性文本处理能力,Sora也借鉴了这种技巧,将视频也分割为时空切片(patches),获得了更好的视频图像一致性处理能力(可使模型在不同分辨率、不同时长、不同长宽比的数据中训练)。
2.基于第1点,Sora训练用的视频数据都是原始尺寸,没有裁剪成统一的尺寸。这种方式使得Sora生成的视频中的内容和图像更全面,不会被裁剪。
3.针对输入视频的压缩过程,专门做了一个模型,该模型可以将视频转化为潜在空间数据(图像转数据过程)。然后Sora的核心模型主要在潜在空间数据集上进行训练。最终的潜在空间数据会被另一个解码器模型(又训练了一个还原图像的模型)再还原回图像。
4.针对文生视频。首先训练一个视频字幕模型,用这个模型给所有视频进行文字标注。同时,利用GPT模型,将较短的文本描述扩充为更长更细节的文本描述,作为Sora的提示文本,从而得到更准确的视频输出。

二、模型支持的能力

1.生成的视频支持不同的时长、分辨率、宽高比 ;
2.支持提示文本生成视频;
3.支持视频+提示文本生成视频;
4.支持视频向前和向后的自然拓展;
5.支持生成无线循环视频;
6.支持编辑视频的类型风格和背景;
7.支持在两个视频中加入过度渐变片段;
8.支持提示文本生成图像;
9.视频大模型下新生的能力:长视频下的物体一致性和运镜一致性、保留对世界环境的修改、能模拟数字世界(诸如“我的世界minecraft”游戏);

三、模型的缺陷

1.物理过程错误:例如玻璃破碎,会生成不符合物理规律的视频。
2.时间序列错误:例如吃东西越吃越多。
3.长视频中的不连续片段:例如画面的突变。


Sora技术报告原文:视频生成模型,就是虚拟世界的模拟器

原文地址:https://openai.com/research/video-generation-models-as-world-simulators

前言

我们在可变持续时间、分辨率和大数据量的视频和图像上联合训练文本条件扩散模型。我们利用一个transformer架构来操作视频和图像。我们最大的模型Sora能够生成一分

  • 18
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

响尾大菜鸟

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值