中国挑战者来了！Vidu横空出世：文生视频能力比肩Sora？

最新推荐文章于 2024-05-20 19:08:38 发布

黑帽子唐哥

最新推荐文章于 2024-05-20 19:08:38 发布

阅读量574

点赞数 16

文章标签：人工智能 llama pytorch 深度学习

本文链接：https://blog.csdn.net/weixin_59191169/article/details/138318926

版权

2 个月前，OpenAI 发布了全新的文生视频模型 Sora，瞬间引爆了全球科技圈，也让马斯克说出了「人类愿赌服输」。在那之后，没有任何一个大模型敢于在文生视频领域「挑衅」Sora。

现在，事情有了变化。

在 4 月 27 日举办的 2024 中关村论坛上，生数科技与清华大学联合发布了「Vidu」文生视频模型，全面对标 OpenAI 的 Sora。

Vidu 生成，动图经过压缩。图/生数科技

不仅是在视频生成分辨率和时长上，最关键的根据官方放出的生成视频，Vidu 已经实现了相当程度的「拟真」——模拟真实世界的物理原理，以及主体的一致性。这是 Vidu 真正对标 Sora 的底气。

但 Vidu，离 Sora 到底还有多少差距？

对标 Sora，Vidu 还差「一点」

从这次发布可以看出，Vidu 处处都在对标 Sora。同样是通过提示词直接生成视频，同样支持最高 1080P，虽然 16 秒的生成视频时长还明显短于 Sora（最长 60 秒）。

最明显的还是生成的视频内容。

比如 Sora 街头行走这一段，相信会看这篇文章的读者应该都看过，一度刷爆了各大社交媒体。

Sora 生成，动图经过压缩。图/ OpenAI

Vidu 也同样生成了类似的视频内容，开始展示了一男一女一熊走在街头的画面，随后又重点展示了熊人的背景街道。

Vidu 生成，动图经过压缩。图/生数科技

虽然相比 Sora 那段少了很多震撼和细节展示，但不管是皮衣的质感，还是路面的反射和倒影，Vidu 其实都展现了非常有说服力的效果。

更重要的是，背景、人物主体是一致的，并没有在前后发生大的变形或变化。

类似的表现还出现在其他生成视频上。

比如开车这一段，镜头一直跟随着汽车前移，但路旁的树木和汽车主体始终没有发生变化，并不像很多扩散模型一样，这一秒和下一秒的主体都可能出现明显的差异。

Vidu 生成，动图经过压缩。图/生数科技

不过在保真度上，Vidu 还是和 Sora 有比较明显的差距。相似的提示词（内容）下，Sora 开车这一段的背景明显更接近真实世界，用比较通俗的话讲，Vidu 有点「油画」。

Sora 生成，动图经过压缩。图/ OpenAI

但显然，Vidu 作为国产大模型，还是更懂中国。

Sora 在之前曾经生成过一段街头「舞龙」的视频，而 Vidu 干脆直接生成了一段「真龙」的视频，背景是辉煌的宫殿群。

Vidu 生成，动图经过压缩。图/生数科技

如果 Sora 的重点与其说是舞龙，实则更像展现「围观群众」的惊人模拟，那 Vidu 就是真真正正模拟了一条龙。

此外，Vidu 还生成了一段「熊猫在湖边弹吉他」，除了主体上的拟真，背景部分的草地、湖水都相当程度地「真实」。

Vidu 生成片段截图，非动图。图/生数科技

在人物生成上，Vidu 也有一组画面充分展示了它的实力，从面部表情、眨眼到抬头，都非常接近实拍镜头。就算比起 Sora 的人物镜头，也不逊色多少。

Vidu 生成，动图经过压缩。图/生数科技

另外考虑到要参与视频内容制作流程，这类文生视频模型也绕不开「镜头调度」的能力，事实是 Vidu 依然展示了相当不错的水平。

总的来说，虽然有 Sora 珠玉在前，但从目前公布的生成视频来看，Vidu 依然展示了极高的视频生成能力，或者说是模拟物理世界的能力。或许在生成复杂画面、保真度等方面还差 Sora，但有一些镜头完全称得上可用，这已经是一个很大的进步。

当然，Sora 的反方向跑步，Vidu 的「人物」突然长出第三条腿，都说明即便 AI 在视频生成领域有了跨越性的进步，仍然还有很大的提升空间。

突然出现的第三条腿。图/生数科技

正如 OpenAI 在 Sora 发布之初承认的，这类模型当前存在一定的局限性，比如无法模拟复杂场景的物理效应，理解某些特定因果关系等。

好饭不怕晚：如何制造 Vidu？

看起来，Vidu 就好像 Sora 一样横空出世，以相当惊艳的表现引起刷屏，而且同是基于对 Transformer 与 Diffusion 架构的融合。但很多人并不知道，生数科技联合创始人兼 CEO 唐家渝上个月就透露过：

「今年内一定能达到 Sora 目前版本的效果。」

不仅如此，这家几乎可以算是从清华大学人工智能研究所「孵化」出来的初创公司，在 2022 年 9 月就提出了融合 Diffusion 和 Transformer 的 U-ViT 架构，比 OpenAI 提出 DiT 架构（Sora 的底层架构）还要早。

甚至因为发布时间更早，计算机视觉顶会 CVPR 2023 提前收录了清华大学的 U-ViT 论文，而以「缺乏创新」为由拒绝了 OpenAI DiT 论文。

但总的来说，这两家公司的思路大体一致。

目前市面上大部分视频生成模型都是基于 Diffusion 架构的扩散模型，比如 Stable Video Diffusion。OpenAI 和生数科技则是引入大语言模型底层的 Transformer 架构，在一定程度上，解决了文生视频一直以来前后一致性和视频长度过短的问题。

Vidu 生成，动图经过压缩。图/生数科技

所以在 Sora 和 Vidu 生成的视频中，你可以说有很多不完美，但在保证主体和背景一致性上，它们都有了实质性的飞跃，几乎不会看到有人物边走边变形的情况，背景不会时刻在变，场景也不会在没有任何转场的情况下突变。

不过很多人可能还有一个问题：明明更早提出融合架构，生数科技为什么更慢？甚至效果还差一些？

事实上不难理解。要知道，生数科技正式成立于 2023 年 3 月，虽然在不久后获得了阿里、百度、字节等公司和机构的多轮融资，但最多也就融到数亿。相比之下，OpenAI 背靠微软，在算力、数据、资金、人才等方面都有着更大的优势。

同时，这也会影响到 Sora 和 Vidu 完全不同的发展路径。

在接受 WSJ 记者采访时，OpenAI 首席技术官 Mira Murati 公开表示，Sora 最快将会在今年年内面向公众推出。考虑到 Sora 生成视频需要的海量算力，外界估计，可能将有限度地率先开放给 ChatGPT Plus 用户。

而据唐家渝表示，生数科技目前要走两条路。

一是打造覆盖文本、图像、视频、3D 模型等多模态能力的底层通用大模型，面向 B 端提供模型服务能力；二是自己面向图像生成、视频生成等场景打造垂类应用，面向游戏制作、影视后期等需求提供订阅制收费服务。

写在最后

Sora 刚发布的时候，国内一片惊叹，又是一片哀嚎。

360 创始人周鸿祎说，Sora 将人类实现 AGI（通用人工智能）的时间从 10 年拉小到了 1-2 年，同时也进一步拉大了中美在 AI 领域的差距。还有更多人认为，尽管国内大模型众多，做视频模型的也不少，却看不到一个能够追赶 Sora 的竞争对手。

而 Vidu 的发布，至少再次证明了一切皆有可能。但如果说 Sora 的发布是一个开始，那我相信 Vidu 不是结束，「甚至不是结束的开始。但这也许是开始的结束。」

大模型岗位需求

大模型时代，企业对人才的需求变了，AIGC相关岗位人才难求，薪资持续走高，AI运营薪资平均值约18457元，AI工程师薪资平均值约37336元，大模型算法薪资平均值约39607元。
在这里插入图片描述

掌握大模型技术你还能拥有更多可能性：

• 成为一名全栈大模型工程师，包括Prompt，LangChain，LoRA等技术开发、运营、产品等方向全栈工程；

• 能够拥有模型二次训练和微调能力，带领大家完成智能对话、文生图等热门应用；

• 薪资上浮10%-20%，覆盖更多高薪岗位，这是一个高需求、高待遇的热门方向和领域；

• 更优质的项目可以为未来创新创业提供基石。

可能大家都想学习AI大模型技术，也想通过这项技能真正达到升职加薪，就业或是副业的目的，但是不知道该如何开始学习，因为网上的资料太多太杂乱了，如果不能系统的学习就相当于是白学。为了让大家少走弯路，少碰壁，这里我直接把全套AI技术和大模型入门资料、操作变现玩法都打包整理好，希望能够真正帮助到大家。

-END-

👉AI大模型学习路线汇总👈

大模型学习路线图，整体分为7个大的阶段：（全套教程文末领取哈）

第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。
在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求： 大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能， 学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力： 大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

黑帽子唐哥

关注

16
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
中国挑战者来了！Vidu横空出世：文生视频能力比肩Sora？

Sora 刚发布的时候，国内一片惊叹，又是一片哀嚎。360 创始人周鸿祎说，Sora 将人类实现 AGI（通用人工智能）的时间从 10 年拉小到了 1-2 年，同时也进一步拉大了中美在 AI 领域的差距。还有更多人认为，尽管国内大模型众多，做视频模型的也不少，却看不到一个能够追赶 Sora 的竞争对手。而 Vidu 的发布，至少再次证明了一切皆有可能。但如果说 Sora 的发布是一个开始，那我相信 Vidu 不是结束，「甚至不是结束的开始。但这也许是开始的结束。
复制链接

扫一扫