谈谈如今正在爆火的sora能给我们带来什么？

最新推荐文章于 2024-09-16 14:49:33 发布

哈希扣的马

最新推荐文章于 2024-09-16 14:49:33 发布

阅读量1.1k

点赞数 33

文章标签：人工智能

本文链接：https://blog.csdn.net/weixin_47245590/article/details/136164472

版权

不说别的

我们先来感受一下它的魅力。

这是国外小哥生成的视频，是不是很震撼。

连一些失败的案例，也被人津津乐道

各界大佬议论纷纷

纽约大学助理教授谢赛宁说道，Sora将改写整个视频生成领域。

Here's my take on the Sora technical report, with a good dose ofspeculation that could be totally off. First of all, really appreciate theteam for sharing helpful insights and design decisions-Sora isincredible and is set to transform the video generation community.

英伟达顶尖科学家Jim Fan激动宣称，这无疑是视频生成领域的GPT-3时刻！

技术报告一经发布，立即激起了千层浪。由于其中不少细节尚显模糊，业界巨头们也不得不展开猜测与探讨。

“Sora是否是一个数据驱动的物理引擎？”
“Sora是否建立在DiT模型之上，且其参数规模可能仅为30亿？”

种种疑问，均指向了一个核心问题：为何Sora能如此惊艳，震撼整个视频生成领域？

答案或许并不遥远。随着研究的深入和更多信息的披露，我们有望揭开Sora背后的神秘面纱，并见证其在视频生成领域的巨大影响与意义。请保持关注，更多精彩即将揭晓。

视频生成的GPT-3时刻

简而言之，Sora是一种创新的视频生成技术，它融合了扩散模型和Transformer架构，以打造“扩散型Transformer”。这一独特组合让Sora能够在各种时长、分辨率和宽高比的视频及图像数据上进行全面训练，进而生成高质量、逼真的视频内容。

关于技术细节，官方报告主要强调了以下六点内容：

首要的是关于视觉数据的“创新转化”。Sora模型在处理视觉数据时，并未采用大语言模型常见的token方式，而是创新性地选择了“Patches（补片）”作为统一不同视觉数据表现形式的手段。

在实际操作中，Sora模型首先将视频数据压缩至低维潜空间，这一步骤的目的是为了更有效地处理和存储数据。随后，模型将这些低维潜空间中的视频数据表示进一步分解为时空补片。这种分解方式使得视频数据能够被转化为一种更易于处理和分析的形式，即补片。通过这种创新的数据转化方式，Sora模型能够更有效地处理和理解视觉数据，从而实现更精确的分析和预测

二是训练了一个视频压缩网络

它可以降低视觉数据维度，输入视频，输出时空上压缩的潜表示。

Sora就在这上面完成训练。相应地，OpenAI也训练了一个专门的解码器。

三是时空补片技术 Spacetime latent patches

当给定一个压缩的输入视频时，Sora模型能够从中提取出一系列时空补片，这些补片在功能上类似于Transformer模型中的token。正是通过这种基于补片的表示方法，Sora模型得以有效地对不同分辨率、持续时间和长宽比的视频和图像进行训练。

在进行视频生成或推理的过程中，Sora模型通过在一个适当大小的网格中排列随机初始化的补片，从而精确地控制所生成视频的大小。这种灵活性使得Sora模型能够根据不同的需求和应用场景，生成符合特定要求的视频内容。

四是扩展Transformer也适用于视频生成的发现

OpenAI在这项研究中发现，扩散型Transformer同样能在视频模型领域中完成高效扩展。

五是视频多样化上的一些揭秘

相较于业内同类型模型，Sora在构图和布局上进行了更多优化。如下图所示，许多同类模型在输出视频时，会盲目地将其裁剪为正方形，这往往导致主题元素只能部分展示，影响了视频的完整性和观赏性。然而，Sora模型却能够捕捉并完整展示整个场景，确保主题元素不会因裁剪而缺失，从而为用户提供更加全面、生动的视觉体验。

报告中提到，Sora在构图和布局上的这些优化，要归功于OpenAI在视频数据的原始尺寸上直接进行了训练。这种训练方法使得模型能够更准确地捕捉和保留视频中的细节和完整场景，避免了盲目裁剪导致的信息丢失。

此外，OpenAI在语言理解方面也下了不少功夫。他们采用了DALL·E 3中引入的一种重新标注技术，并将其应用于视频处理中。这种技术有助于模型更好地理解视频内容，提高了其文字描述与视频内容之间的匹配度。

不仅如此，OpenAI还利用GPT模型将用户提供的简短提示转换为更详细、更丰富的描述，然后再将这些描述发送给Sora进行训练。这种做法进一步增强了Sora的文字理解能力，使其能够更准确地理解用户意图并生成符合要求的视频内容。

通过这一系列技术和方法的优化，Sora在视频生成和文字理解方面都展现出了强大的能力，为用户提供了更加高效、便捷的视频生成体验。

谢赛宁的分析如下：

Sora模型似乎建立在DiT（扩散Transformer）的基础之上。简而言之，DiT是一个融合了Transformer主干和扩散机制的模型，其结构可以概括为VAE编码器、ViT（Vision Transformer）、DDPM（去噪扩散概率模型）和VAE解码器的组合。谢赛宁推测，Sora在DiT的基础上可能并没有引入太多复杂的额外组件，而是基于其结构进行了优化或扩展。
关于视频压缩网络，谢赛宁认为Sora可能采用了VAE（变分自编码器）架构。这种架构的关键区别在于它是通过原始视频数据进行训练的。由于VAE是一个基于卷积神经网络（ConvNet）的模型，因此DiT在技术上可以被视为一个混合模型，融合了Transformer和ConvNet的优势。

3、Sora可能有大约30亿个参数

Sora在科技圈引起了广泛的关注和讨论，其生成的视频在上线后迅速传播，受到了大量观众的关注和喜爱。这种热度不仅体现在普通网友的积极转发和讨论，还体现在学术圈和业内人士的高度评价和认可。一些知名的科技创始人，如360的周鸿祎，以及全球顶尖的AI学者，如杨立昆，都下场参与了关于Sora的讨论，这足以说明其在科技界的影响力。

Sora的火爆还体现在其引发的商业效应上。一些敏锐的投资者和创业者已经看到了Sora背后的商业价值，开始布局相关的业务。例如，有人已经整理出了业务涉及文生视频的A股上市公司名单，试图从中找到投资机会。同时，在文生视频市场真正成熟之前，一些先行者已经通过知识付费等方式掘到了第一桶金。

从技术层面来看，Sora之所以受到如此多的关注和赞誉，是因为其具备强大的视频生成能力。它不仅可以生成高质量的视频内容，更重要的是，它还可以理解并模拟物理世界中的各种规律和交互方式，使得生成的视频内容更加逼真和生动。这种深层次的理解不仅局限于简单的命令，而是可以实现对物理世界中各种复杂现象的理解和模拟。例如，Sora可以轻而易举地实现对毛发纹理物理特性的理解，这在过去的视频生成技术中是无法实现的。