Sora一出哪里又要裁员了？

小殊小殊

已于 2024-02-21 17:01:35 修改

阅读量3.4k

点赞数 40

文章标签：人工智能

于 2024-02-20 09:00:35 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xian0710830114/article/details/136180328

版权

上班前夕迎来大新闻，那就是Sora了，Sora是什么，有什么牛逼之处，怎么实现的，我们跟着官方文档透露出来的一点点信息，简单的捋一捋。

一、Sora是什么

官方给出的定义是：世界模拟器。这很明显有夸大的成分，实际一点来说Sora就是OpenAI用GPT的能力将视频文本对齐，通过将多个高分辨率视频素材进行降维处理，然后密集训练，最后大力出奇迹，达到你想看什么就生成什么视频的效果。

二、Sora为什么受追捧

第一个牛逼之处是持久。虽然文生视频已不是新鲜事，但相比于Sora，此前的文生视频大模型所能生成的视频时间很短。比如去年Pika Labs发布的Pika 1.0曾轰动一时，但只能生成3秒以内的视频。而Sora生成的视频足足1分钟，基本达到了实际使用的要求，毕竟某音上很多小姐姐的视频还达不到1分钟。

第二就是连贯。视频内容的语义连贯性已经非常完美，前景、背景的镜头感和融合程度非常好，甚至连光影、物理碰撞都有模有样。它已经很好的模拟了真实世界中的物理规则，已经不是不是文生图这样的小玩意儿了，来看个例子吧。

title_0

三、训练过程

关于算法的信息，作者只公布了一点点信息，任何细节都没有透露，我们只能根据只言片语大概得还原一下训练过程。

1.把图像数据转化为 patches（也许可以翻译成面片），patches是从LLM里面得到的灵感，相当于LLM中的token，作者使用Visual Patches来统一不同尺寸的视频。因为视频就是图片帧序列，Visual Patches的的维度应该和视频帧数相关。

2.为了统一不通过尺度和时长的视频，作者训练了一个视频压缩网络，将视频压缩成统一且低纬度的特征表示。

3.将2中的特征送入一个diffusion transformer模型（具体结构未知）中进行编解码，编码阶段得到类似Transformer中token的Spacetime latent patches（时空隐补丁？实在不会翻译），解码阶段生成“干净的”patches。既然是diffusion 模型，编解码的过程中可定会掺入提示词的token和随机马赛克。

四、视频数据

1.使用大分辨率视频进行训练：第一个好处：抽样的灵活性，Sora可以采样宽屏1920x1080p视频，垂直1080x1920视频以及介于两者之间的所有视频。所有的尺寸都使用相同的模型。

sampling_0

sampling_2

2.使用完整的视频进行训练：作者发现这样可以改善构图，使视频的语义更统一，传统做法是将最视频进行随机的裁剪成正方形或者矩形，这样有可能丢掉很多内容，是语义不完整，像下面着这样，左面的是传统的财裁剪方式，右面是作者使用的方式。

sampling_3

sampling_4

五、文本数据

1.训练了一个高度描述性的字幕模型，然后使用它为训练集中的所有视频生成文本字幕。作者发现，对高度描述性的视频字幕进行训练可以提高文本保真度以及视频的整体质量。

2.利用GPT将简短的用户提示转换为更长的详细字幕，并将其发送到视频模型。这使得Sora能够准确地按照用户提示生成高质量的视频。

关于模型和数据的介绍官方只放出这么多，其实也没有什么颠覆性的创新，也许是压箱底的东西没有拿出来？但从这些信息来看，只能用四个字来形容：力大砖飞

六、还能做什么

除了文本生成视频，Sora还有很多玩法：

（1）图片+prompt生成视频

prompting_1

（2）扩展视频：Sora还能够在时间上向前或向后扩展视频。下面是四个视频，它们都是从一个生成的视频片段开始向后扩展的。因此，这四个视频的开始都不同，但四个视频的结局都是一样的。

extend_1

extend_2

extend_4

（3）编辑视频：根据prompt修改视频的内容

base

0

（4）拼接视频：Sora可以在两个输入视频之间进行插帧，在具有完全不同主题和场景构图的视频之间创建无缝过渡。在下面的例子中，中间的视频在左边和右边对应的视频之间插入。

a0

a1

a2

七、涌现的能力

除此之外Sora还有许多有趣的突发能力，类似于“涌现”。

比如Sora可以生成带有动态摄像机运动的视频。随着摄像机的移动和旋转，人物和场景元素在三维空间中始终如一地移动。

simulation_0

Sora经常(虽然不是总是)能够有效地为短期和长期依赖关系建模。例如，模型可以保存人物、动物和物体，即使它们被遮挡或离开了框架。同样，它可以在单个样本中生成同一角色的多个镜头，在整个视频中保持其外观。

simulation_2

Sora有时可以用简单的方式模拟影响世界状态的行为。例如，画家可以在画布上留下新的笔触，随着时间的推移，或者一个人吃汉堡时留下咬痕。

simulation_5

Sora还能够模拟人工过程，比如视频游戏。Sora可以在高保真度渲染世界及其动态的同时，用基本策略控制《我的世界》中的玩家。

simulation_6

八、写在最后

其实Sora还有很多不足，它不能准确地模拟许多基本相互作用的物理过程，比如玻璃破碎。就连官方也给出了“自黑”视频。

但我认为国人的重点不应该放在Sora生成的视频好或者不好，也不用提多少行业会被颠覆。而是应该冷静思考一下，为什么别人家的公司在这么短的时间内能做出如此震惊世界的产品。

确实我们在很多领域正以肉眼可见的速度追赶世界一流水平，包括各类顶会也越来越多国人的身影。这是好事，但在我看来，我们在人工智能领域与世界顶尖水平的差距确实越来越远了，无论软件还是硬件。

努力吧！希望下次引爆朋友圈的是我们自己的公司，而不是盯着别人的东西土嗨。

关注订阅号了解更多精品文章

交流探讨、商务合作请加微信

关注

40
点赞
踩
36

收藏

觉得还不错? 一键收藏
打赏
25
评论
Sora一出哪里又要裁员了？

上班前夕迎来大新闻，那就是Sora了，Sora是什么，有什么牛逼之处，怎么实现的，我们跟着官方文档透露出来的一点点信息捋一捋。
复制链接

扫一扫

小殊小殊 CSDN认证博客专家 CSDN认证企业博客

码龄15年

人工智能领域新星创作者

92: 原创

310: 周排名

7455: 总排名

94万+: 访问

: 等级

3723: 积分

3万+: 粉丝

1745: 获赞

696: 评论

6299: 收藏

私信

关注

热门文章

分类专栏

最新评论

一文搞懂Transformer的位置编码
長安: 我觉得是他的i没搞对，应该是从0开始，我看半天，去看了其他文章才整明白，不过其他挺好的
如何训练一个大模型：LoRA篇
danci_btq: 非常不错的技术领域文章分享，解决了我在实践中的大问题！博主很有耐心，更有对知识的热忱和热爱，写了这么实用有效的分享，值得收藏点赞。
如何训练一个大模型：LoRA篇
打鱼又晒网: 博主的文章一直都是我的学习指南，内容详实，让我从中获益良多，每篇博文都是知识的瑰宝，我真的很喜欢你的风格，你的博客内容深入浅出，总是让我不再感到学习的困难，期待你的下一次精彩分享。
如何训练一个大模型：LoRA篇
Mr.Winter`: 文章写得专业、深入、细致，收藏啦
如何训练一个大模型：LoRA篇
空白诗: 非常不错的技术领域文章分享，解决了我在实践中的大问题！博主很有耐心，更有对知识的热忱和热爱，写了这么实用有效的分享，值得收藏点赞。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 25

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小殊小殊 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。