一篇Sora模型小白扫盲文——《Sora技术报告》总结

响尾大菜鸟

已于 2024-02-29 21:55:17 修改

阅读量1.3k

点赞数 18

分类专栏：人工智能文章标签：人工智能深度学习机器学习 Sora OpenAI

于 2024-02-29 21:47:09 首次发布

本文链接：https://blog.csdn.net/yuhk231/article/details/136380807

版权

Sora技术报告详述了视频生成模型的创新训练技术，如时空切片处理，以及模型在不同分辨率、时长、宽高比的适应性。模型能生成不同内容的视频，包括拓展、编辑和图像生成，但也存在物理过程和时间序列等缺陷。Sora展现出模拟数字世界的潜力，有望成为强大的视频模拟器。

摘要由CSDN通过智能技术生成

Sora技术报告的核心总结

根据目前公开的一些信息，我个人将Sora技术报告一文中的核心内容总结如下，分别为训练过程的开创性优化技术、模型支持的能力、模型的缺陷。

一、训练过程开创性优化技术

1.ChatGPT的分词（token）处理取得了很好的一致性文本处理能力，Sora也借鉴了这种技巧，将视频也分割为时空切片（patches），获得了更好的视频图像一致性处理能力（可使模型在不同分辨率、不同时长、不同长宽比的数据中训练）。
2.基于第1点，Sora训练用的视频数据都是原始尺寸，没有裁剪成统一的尺寸。这种方式使得Sora生成的视频中的内容和图像更全面，不会被裁剪。
3.针对输入视频的压缩过程，专门做了一个模型，该模型可以将视频转化为潜在空间数据（图像转数据过程）。然后Sora的核心模型主要在潜在空间数据集上进行训练。最终的潜在空间数据会被另一个解码器模型（又训练了一个还原图像的模型）再还原回图像。
4.针对文生视频。首先训练一个视频字幕模型，用这个模型给所有视频进行文字标注。同时，利用GPT模型，将较短的文本描述扩充为更长更细节的文本描述，作为Sora的提示文本，从而得到更准确的视频输出。

二、模型支持的能力

1.生成的视频支持不同的时长、分辨率、宽高比；
2.支持提示文本生成视频；
3.支持视频+提示文本生成视频；
4.支持视频向前和向后的自然拓展；
5.支持生成无线循环视频；
6.支持编辑视频的类型风格和背景；
7.支持在两个视频中加入过度渐变片段；
8.支持提示文本生成图像；
9.视频大模型下新生的能力：长视频下的物体一致性和运镜一致性、保留对世界环境的修改、能模拟数字世界（诸如“我的世界minecraft”游戏）；

三、模型的缺陷

1.物理过程错误：例如玻璃破碎，会生成不符合物理规律的视频。
2.时间序列错误：例如吃东西越吃越多。
3.长视频中的不连续片段：例如画面的突变。

Sora技术报告原文：视频生成模型，就是虚拟世界的模拟器

原文地址：https://openai.com/research/video-generation-models-as-world-simulators

前言

我们在可变持续时间、分辨率和大数据量的视频和图像上联合训练文本条件扩散模型。我们利用一个transformer架构来操作视频和图像。我们最大的模型Sora能够生成一分钟的高保真视频。我们的研究结果表明可伸缩的视频生成模型是构建物理世界通用模拟器的一种途径。
本文仅描述Sora模型的能力边界以及其缺点，本文不讨论Sora模型的架构及其实现细节。