OpenAI视频生成模型Sora背后的技术及其深远的影响

最新推荐文章于 2024-09-30 08:36:50 发布

用数据说话用数据决策

最新推荐文章于 2024-09-30 08:36:50 发布

阅读量85

点赞数 1

文章标签：音视频

原文链接：https://blog.csdn.net/matt45m/article/details/136144164?spm=1001.2100.3001.7377&utm_medium=distribute.pc_feed_blog.none-task-blog-personrec_tag-7-136144164-null-null.nonecase&depth_1-utm_source=distribute.pc_feed_blog.none-task-blog-personrec_tag-7-136144

版权

前言
Sora的视频生成技术在保真度、长度、稳定性、一致性、分辨率和文字理解等方面都达到了当前最优水平。其核心技术包括使用视觉块编码将不同格式的视频统一编码成Transformer可训练的嵌入向量，以及类似于扩散过程的UNet方法进行降维和升维的加噪与去噪操作。通过构建足够大的模型，使其具备了智能的涌现能力，例如在一定程度上理解真实世界的物理影响和因果关系。

与其他视频生成模型不同，OpenAI采用了一种“大”模型的方法，即准备大量的视频数据，使用多模态模型对其进行标注，并将视频编码成统一的视觉块嵌入。然后，通过足够大的网络架构、训练批次和算力，使模型能够对大量训练数据进行全局拟合，从而更好地理解并还原细节。

这种视频生成模型只是OpenAI在理解和模拟真实世界复杂因果关系的通用模型之路上的一个里程碑，而不是终点。人们对其未来发展充满期待，同时也可能感到一些不安。

sora生成视频

算法报告
1.视频生成模型作为世界模拟器
我们探索了在视频数据上进行大规模训练生成模型。具体来说，我们联合训练了文本条件扩散模型，处理不同持续时间、分辨率和宽高比的视频和图像。我们利用了一种在视频和图像潜码的时空块上操作的变压器架构。我们最大的模型Sora能够生成一分钟的高保真视频。我们的结果表明，扩大视频生成模型的规模是朝着构建物理世界通用模拟器的有前途的路径。

tokyo-walk

算法报告重点介绍：
（1）我们将各类视觉数据转换为统一表示的方法，该方法能够实现生成模型的大规模训练；
（2）Sora能力和局限性的定性评估。报告中未包含模型和实现细节。

以前的许多工作已经研究了使用各种方法对视频数据进行生成建模，包括循环网络、生成对抗网络、自回归变换器和扩散模型。这些工作通常专注于狭窄类别的视觉数据、较短的视频或固定大小的视频。Sora是一种通用的视觉数据模型——它可以生成持续时间、宽高比和分辨率各异的视频和图像，长达一分钟的高清视频。

2.将视觉数据转换为图像块
我们从大型语言模型中获得灵感，这些模型通过在互联网规模的数据上训练来获得通用能力。这种范式的成功在一定程度上得益于使用词元编码/令牌（token），它们巧妙地统一了文本的多种形式——代码、数学和各种自然语言。在这项工作中，我们考虑如何让视觉数据的生成模型继承这些好处。与拥有文本令牌的不同，Sora拥有视觉块嵌入编码（visual patches）。视觉块已被证明是视觉数据模型的一种有效表示。我们发现，补丁是一种高度可扩展且有效的表示形式，用于在多种类型的视频和图像上训练生成模型。

3. 视频压缩网络
我们训练了一个网络，用于降低视觉数据的维度。这个网络将原始视频作为输入，并输出一个在时间和空间上都被压缩的潜在表示。Sora在这个压缩的潜在空间内接受训练，并随后生成视频。我们还训练了一个相应的解码器模型，将生成的潜在表示映射回像素空间。

4. 隐空间时空编码块
给定一个压缩的输入视频，我们提取一系列时空编码块作为transformer令牌（token）。这种方案也适用于图像，因为图像只是帧数为单一的视频。我们基于补丁的表示使得Sora能够训练不同分辨率、持续时间和宽高比的视频和图像。在推理时，我们可以通过在适当大小的网格中排列随机初始化的编码块来控制生成视频的大小。

5.扩展Transformer用于视频生成
Sora是一个扩散模型；给定输入的噪声块（和像文本提示这样的条件信息），它被训练来预测原始的“干净”块。重要的是，Sora是一个扩散变换器。变换器在包括语言建模、计算机视觉和图像生成等多个领域展现了显著的扩展属性。

在这项工作中，我们发现扩散变换器作为视频模型也能有效地扩展。下面，我们展示了训练进展过程中，使用固定种子和输入的视频样本比较。随着训练计算量的增加，样本质量显著提高。

6.可变持续时间、分辨率、宽高比
过去在图像和视频生成中的方法通常会将视频调整大小、裁剪或剪辑到一个标准尺寸——例如，4秒长的视频，分辨率为256x256。我们发现，直接在数据的原始尺寸上进行训练可以带来几个好处。

7.采样灵活性
Sora可以采样宽屏1920x1080p视频、竖屏1080x1920视频以及介于两者之间的所有格式。这使得Sora能够直接按照不同设备的原生宽高比创建内容。它还允许我们在使用同一模型生成全分辨率内容之前，快速原型化较小尺寸的内容。

8.改进的构图和画面组成
我们通过实证发现，在视频的原始宽高比上进行训练可以改善构图和取景。我们将Sora与一个版本的模型进行了比较，该模型将所有训练视频裁剪成正方形，这是训练生成模型时的常见做法。在正方形裁剪上训练的模型（左侧）有时会生成主体只部分出现在视野中的视频。相比之下，来自Sora的视频（右侧）具有改善的取景。

9.语言理解
训练文本到视频生成系统需要大量带有相应文字标题的视频。我们将在DALL·E 3中引入的重新标注技术应用到视频上。我们首先训练一个高度描述性的标注模型，然后使用它为我们训练集中的所有视频生成文字标题。我们发现，在高度描述性的视频标题上进行训练可以提高文本的准确性以及视频的整体质量。
类似于DALL·E 3，我们也利用GPT将用户的简短提示转换成更长的详细说明，然后发送给视频模型。这使得Sora能够生成高质量的视频，准确地遵循用户的提示。

10.使用图片和视频进行提示
上述结果以及我们的登录页面展示了文本到视频的样本。但是Sora也可以通过其他输入进行提示，例如预先存在的图片或视频。这项能力使得Sora能够执行广泛的图像和视频编辑任务——创建完美循环的视频，为静态图像添加动画，向前或向后延长视频的时间等。

12. 制作DALL·E图像动画
Sora能够根据输入的图片和提示生成视频。下面我们展示了基于DALL·E 2 31 和DALL·E 3 30 图片生成的示例视频。

13. 延长生成的视频
Sora也能够将视频向前或向后延长时间。下面是四个视频，它们都是从生成的视频片段开始向后延长的。因此，这四个视频的开头各不相同，但最终都会达到相同的结局。我们可以使用这种方法将视频向前和向后扩展，以制作出无缝的无限循环。

14.视频到视频编辑
扩散模型使得从文本提示编辑图像和视频的方法层出不穷。下面我们将其中一种方法，SDEdit，应用于Sora。这项技术使得Sora能够零次学习地转换输入视频的风格和环境。

15. 连接视频
我们还可以使用Sora在两个输入视频之间逐渐插值，创建在完全不同主题和场景构成的视频之间的无缝过渡。在下面的例子中，中间的视频在左右两边对应视频之间进行插值。

16.图像生成能力
Sora也能够生成图像。我们通过在具有一个帧时间范围的空间网格中排列高斯噪声块来实现这一点。该模型可以生成不同大小的图像——分辨率最高可达2048x2048。

涌现的模拟能力
我们发现，当在大规模上训练时，视频模型展现出许多有趣的新兴能力。这些能力使得Sora能够模拟现实世界中人类、动物和环境的某些方面。这些属性并没有任何针对3D、物体等的明确归纳偏见——它们纯粹是规模效应的现象。
3D一致性。Sora能够生成具有动态相机运动的视频。随着相机的移动和旋转，人物和场景元素在三维空间中保持一致地移动。

长距离一致性和物体恒存性。对于视频生成系统来说，一个重大挑战是在采样长视频时保持时间上的连贯性。我们发现，尽管不总是如此，Sora通常能够有效地建模短距离和长距离依赖关系。例如，我们的模型即使在人、动物和物体被遮挡或离开画面时，也能持续保持它们的存在。同样，它能在单个样本中生成同一角色的多个镜头，并在整个视频中保持其外观。

与世界互动。Sora有时可以模拟一些简单的动作来影响世界的状态。例如，画家可以在画布上留下随时间持续存在的新笔触，或者一个人可以吃一个汉堡并留下咬痕。

模拟数字世界。Sora也能够模拟人工过程——一个例子是视频游戏。Sora可以在同时控制《我的世界》中的玩家采用基本策略的同时，还能以高保真度渲染世界及其动态。通过用提到“我的世界”的字幕提示Sora，可以零次尝试地引发这些能力。
这些能力表明，持续扩展视频模型是朝着开发高度能够模拟物理和数字世界及其内部的物体、动物和人类的有希望的道路。

Sora作为一个模拟器目前展现出许多限制。例如，它并没有准确地模拟许多基本互动的物理效应，比如玻璃破碎。其他互动，比如吃食物，不总是产生正确的物体状态变化。我们在我们的登录页面列举了模型的其他常见故障模式——比如在长时间样本中发展的不连贯性或物体的自发出现。
我们相信，Sora目前的能力表明，持续扩展视频模型是朝着开发能够模拟物理和数字世界及其内部的物体、动物和人类的有能力的模拟器的有希望的道路。

Sora的影响
对于普通人：这可能是独立创作者最佳的时代之一。随着像 Sora 这样的工具的出现，AI生成的文案、音效和视频等工具已经非常成熟，一个人可以轻松地制作出高质量的短片。优秀的故事将会变得尤为珍贵，而有才华的创作者也更不容易被埋没。然而，从另一个角度来看，随着创作门槛的降低，故事竞争的激烈程度也将大幅增加。

XR产业，特别是以 Vision Pro 为代表的部分，有望再次蓬勃发展。随着技术的进步，内容匮乏将不再是问题，而创作者将有更多的创作空间和机会。

目前流行的短视频推荐模式可能会发生变化。可能会从系统根据用户喜好推荐短视频，转变为根据用户需求实时生成短视频。或者说，同一个短视频可以根据不同用户的需求进行实时微调，以满足不同用户群体的需要。

对于商业公司：AI视频生成公司将面临第一波挑战，但也有机会。随着 OpenAI 成功证明了利用大型模型进行视频生成的可行性，其他公司只需证明他们也可以利用大型模型生成视频。与 ChatGPT 成功后出现更多大语言模型公司的情况相似，AI视频生成领域可能会出现更多竞争者。
AI三维生成公司可能会面临第二波冲击。随着多目重建技术的出现，视频生成和3D生成之间的界限变得模糊。因此，3D生成公司可能需要重新评估当前的技术路线和商业逻辑。

虽然 OpenAI 没有明确说明，但是 Sora 所需的计算能力可能会很大。因此，显卡公司可能会迎来新的好时机，但不一定有利于英伟达。由于计算能力越来越像基础设施，而基础设施对于各国至关重要，即使不考虑制裁，各国都可能要求计算能力的自主可控。事实上，每个大公司都可能开始考虑自己开发显卡或者专用 AI 计算卡（例如 Google、特斯拉、OpenAI、阿里等）。因此，计算能力领域的竞争者可能会越来越多。

知来者逆
关注

专栏目录
SORA使用
qq_29300513的博客
2153
无线信道测量系统使用手册 2017.07.21 1. 硬件连接接收机通过串口连接单片机，后者与步进电机驱动模块相连，用于控制电机转动，从而实现天线位置移动。水平维度内天线从h1移动到h64，可测量64点，水平维度内天线从v1向下移动到v32，可测量32点。因此在二维平面内最大天线位置数量为2048点，实际测量中可根据需要设定。目前设置测量中心频点为5.6 GHz，相邻天线间隔d0 = 2.
基于C++的knapsack管理系统 .zip
02-18
vue
SORA无线电开发简介
01-29
SORA无线电开发简介传统的无线通讯系统中，关键的底层操作，例如物理层的信号处理，和媒体访问层控制，都基本上是用专用的硬件芯片来实现的。但是，专用的硬件芯片一旦设计生产，就无法修改了。这极大地制约了无线技术的研究和发展，使得无线技术的升级换代需要十年，甚至更长的周期。而软件无线电的思想则是在通用的计算平台上（例如CPU），利用软件程序完成大部分的无线底层功能。因为是软件实现的，因此可以很方便的修改和升级。并且，通用处理器的发展速度远远超过专用硬件和处理器。
RBTO-PMA-SORA_RBTO_SORA_拓扑优化
08-09
基于PMA的序列优化方法的可靠度拓扑优化程序
sora2-types
03-16
sora2-types
sora
03-18
]（）没有艺术的生活是无法想象的。没有学习的艺术是无法避免的。 ]（）代表性艺术学院（SORA）成立于1992年，是芝加哥的原始素描和绘画工作室。学校提供了一个计划和环境，让学生可以学习，练习和发展欧洲古典古典艺术技能。该计划在2015年被取代。 :copyright:presentational-art.org。版权所有。
VGM之Sora：OpenAI重磅发布一款“炸天”的视频生成模型—《Video generation models as world simulators视频生成模型作为世界模拟器》翻译与解读
心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，谦虚，自律，反思，成长，还算是比较正能量的博主，公益免费传播……内心特别想在AI界做出一些可以推进历史进程影响力的东西(兴趣使然，有点小情怀，也有点使命感呀)……
1220
VGM之Sora：OpenAI重磅发布一款“炸天”的视频生成模型—《Video generation models as world simulators视频生成模型作为世界模拟器》翻译与解读目录《Video generation models as world simulators视频生成模型作为世界模拟器》翻译与解读引言 View Sora overview查看Sora概述 Language understanding语言理解 Prompting with ima
AMD CPU Ryzen R7 2700X 安装 Ubuntu18.04 + AMD RX580 显卡驱动
热门推荐
u012332816的博客
1万+
机器配置如下：处理器: AMD Ryzen R7 2700X @ 3.7GHz, 8核心16线程内存： 4*16 GB DDR4 2133MHz 显卡： Radeon RX 580 @ 8GB 硬盘： 1TB SSD @ NVMe 主板： X470 Gaming Pro 之前在这个机器上安装 Ubuntu18.04.1 x64 桌面版的时候，一直安装不上该机器的显卡驱动程序，不...
SORA-SVL安装
qingmuluoyang的博客
195
Apollo; LGSVL; SORA-SVL
2022最新win10/11安装Ubuntu，本人多次亲测可用
qq_57076285的博客
1272
对于win10已经装好Ubuntu的，需要先彻底删除Ubuntu（没有安装过ubuntu的电脑跳过此步）参考：彻底删除Ubuntu EFI分区及启动项_mtllyb的博客-CSDN博客_ubuntu删除分区完全删除后，开始制作系统盘，安装Ubuntu 参考：Windows10安装ubuntu16.04双系统教程 - 不妨不妨，来日方长 - 博客园 (cnblogs.com) 进入安装界面后，会遇到分辨率不合适的问题，可能会导致窗口过大，看不到下边的东西，按住 ......
真假难辨 - Sora(OpenAI)/世界模拟器的技术报告
学习随笔
666
Sora是OpenAI最新发布的世界模拟器，亮点是可以生成一分钟的高保真视频，这里给出了它的技术报告
python Mahjong
02-18
python Mahjong
QT编写的串口助手基础
02-18
QT编写的串口助手基础
基于springboot的公益服务平台代码
02-18
公益服务平台代码 java公益服务平台代码基于springboot的公益服务平台代码 1、公益服务平台的技术栈、环境、工具、软件： ① 系统环境:Windows/Mac ② 开发语言：Java ③ 框架：SpringBoot ④ 架构:B/S、MVC ⑤ 开发环境:IDEA、JDK、Maven、Mysql ⑥ JDK版本：JDK1.8 ⑦ Maven包：Maven3.6 ⑧ 数据库：mysql 5.7 ⑨ 服务平台:Tomcat 8.0/9.0 ⑩ 数据库工具：SQLyog/Navicat ⑪ 开发软件：eclipse/myeclipse/idea ⑫ 浏览器：谷歌浏览器/微软edge/火狐 ⑬ 技术栈:Java、Mysql、Maven、Springboot、Mybatis、Ajax、Vue等 2、适用人群：计算机，电子信息工程等专业的学习者等, 高分毕业设计项目，也可作为课程设计和期末大作业。本资源仅是代码的压缩包，该代码适合毕业设计、课程设计作业，所有源码均经过严格测试，可以放心下载使用。有任何使用问题欢迎随时与博主沟通，第一时间进行解答！ 3、解压说明：本资源需要电脑
毕业设计MATLAB_Struve函数.zip
最新发布
02-18
毕业设计MATLAB源码资料
网购-网购平台-网购平台源码-网购平台java代码-基于Web的网购平台设计与实现-网购平台设计与实现-网购项目代码-java
02-18
网购-网购平台-网购平台源码-网购平台java代码-网购平台设计与实现-基于springboot的网购平台-基于Web的网购平台设计与实现-网购网站-网购网站源码-网购网站java代码-网购项目-网购项目代码-网购系统-网购系统源码-网购管理系统-网购管理系统java代码-网购代码 1、技术栈：java,springboot,vue，ajax，maven，mysql，MyBatisPlus等开发语言：Java 框架：SpringBoot JDK版本：JDK1.8 数据库：mysql 5.7 数据库工具：SQLyog/Navicat 开发软件：eclipse/myeclipse/idea Maven包：Maven 浏览器：谷歌浏览器 2、系统的实现用户信息图片素材视频素材摘要 I 目录 III 第1章绪论 1 1.1选题动因 1 1.2背景与意义 1 第2章相关技术介绍 3 2.1 MySQL数据库 3 2.2 Vue前端技术 3 2.3 B/S架构模式 4 2.4 ElementUI介绍 4 第3章系统分析 5 3.1 可行性分析 5 3.1.1技术可行性
毕业设计MATLAB_Newmark Integrator函数.zip
02-18
毕业设计MATLAB源码资料
物流系统代码 java物流系统代码
02-18
物流系统代码 java物流系统代码基于springboot的物流系统代码 1、物流系统的技术栈、环境、工具、软件：① 系统环境:Windows/Mac ② 开发语言：Java ③ 框架：SpringBoot ④ 架构:B/S、MVC ⑤ 开发环境:IDEA、JDK、Maven、Mysql ⑥ JDK版本：JDK1.8 ⑦ Maven包：Maven3.6 ⑧ 数据库：mysql 5.7 ⑨ 服务平台:Tomcat 8.0/9.0 ⑩ 数据库工具：SQLyog/Navicat ⑪ 开发软件：eclipse/myeclipse/idea ⑫ 浏览器：谷歌浏览器/微软edge/火狐 ⑬ 技术栈:Java、Mysql、Maven、Springboot、Mybatis、Ajax、Vue等最新计算机软件毕业设计选题大全 https://blog.csdn.net/weixin_45630258/article/details/135901374 摘要目录第1章绪论 1.1选题动因 1.2背景与意义第2章相关技术介绍 2.1 MySQL数据库 2.2 Vue前
rabbitMQ 什么是订阅模型