让中美差距拉大的Sora是什么?好莱坞和AI视觉创业公司会挂掉吗?|投资人说

OpenAI发布的Sora模型开创AI视频生成新篇章,将视频时长提升至1分钟,支持多镜头一致性生成。尽管在理解复杂场景上有限制,但为视频创作和产业带来巨大机会。Sora的出现并未使创新公司面临绝境,相反,60分之上的场景创新和应用探索仍存在大量空间,为懂模型和场景的创业者提供机遇。

2月16日凌晨,OpenAI发布了自己的首个AI视频生成模型—Sora。这是一个历史性的里程碑,扩散模型结合OpenAI大获成功的transformer,在视觉领域实现了与大语言模型类似的突破。毫无疑问,视觉生成领域将有一次大的技术和商业革命。

本文将分别讨论:1. Sora是什么,怎么工作的,2. Sora引发的产业机会,3. 是不是大树之下寸草不生,这个领域的创业公司都要"挂"了。

图片

Sora是什么?怎么工作的

Sora在多个方面重新定义了AI视频生成模型的标准:

a.它将视频时长从当前的5-15秒,直接提升到了1分钟,这个长度完全可以应对短视频的创作需求。从OpenAI发表的文章看,如果需要,超过1分钟毫无任何悬念。

b.它可以生成多个镜头,并且各个镜头具有角色和视觉风格的一致性。

c.不仅可以用文字prompt生成视频,还支持视频到视频的编辑,当然也可以生成高质量的图片,Sora甚至还可以拼接完全不同的视频,使之合二为一、前后连贯。

d.它是扩散模型, 更是扩散+Transformer的视觉大模型,并且产生了涌现现象,对现实世界有了更深刻的理解和互动能力,具有了世界模型的雏形。

它能生成更真实,一致性更强的多镜头长视频

OpenAI官方公布了数十个示例视频,充分展示了Sora模型的强大能力。

图片

人物的瞳孔、睫毛、皮肤纹理,都逼真到看不出一丝破绽,真实性与以往的AI生成视频是史诗级的提升,AI视频与现实的差距,更难辨认。

图片

无人机视角的东京街头景色,让Sora在复杂场景展现,人物动作自然度等方面的优势展露无遗。

图片

在山道上穿梭的复古SUV,可以看到真实性很高。

图片

Sora可以在两个输入视频之间逐渐进行转场,在完全不同主题和场景构成的视频之间创建无缝过渡。

扩散模型+Transformer如何工作的

OpenAI的团队从大语言模型的大规模训练中汲取了灵感,对应大语言模型的文本数据表示tokens,它们将视觉数据分割成数据块 ,首先将视频压缩到较低维的隐式特征,然后分解为时空数据块,这些数据块的作用就相当于token在大语言模型中的作用,用于训练Sora。

讲中文,就是Sora式把图片/视频都token化了。

图片

Sora是一个基于扩散模型(Diffusion Model)的视频模型,但是它是一个扩散Transformer模型,Transformer已经证明了把语言、视觉和图像生成一同实现的强大能力。

它基于DALL·E和GPT模型的研究成果,采用了DALL·E 3的重标注技术,通过GPT的能力,使模型更加准确地遵循用户的文本指令生成视频。

所以,Sora是扩散模型+transformer的视觉大模型。

图片

除了能根据文本指令生成视频外,这款模型还能将现有的静态图像转化成视频,精确细致地赋予图像中内容以生动的动画。模型还能扩展现有视频或补全缺失的帧。

Sora的出现,进一步拉大了中美在AI方面的差距。

Sora仍有很大缺陷

但是,尽管Sora在技术和性能表现上有了巨大的提升,它仍有不少的局限性,在理解复杂场景的物理原理、因果关系、空间细节、时间推移上存在弱点。例如它不能很好地表现玻璃碎裂。

图片

还有在吹蜡烛之前和吹蜡烛之后,火苗没有丝毫变化。

图片

它也搞反了人在跑步机上跑步的方向。

图片

OpenAI只是提供了生成的视频展示,随着Sora的发布,同时还引发了人们对滥用视频生成技术的担忧。为此,公司并未向外正式开放Sora的使用,而是精心挑选了一批"受信任"的专业人士做测试。

图片

Sora引发的产业机会

首先,这是一个里程碑式的技术进步。

其次,在视频应用的场景中,能展示不等于能实用。如果说实现商业化需要做到100分(60分技术+40分场景),以往人工能做到90分,Sora的出现只解决了那60分,甚至到75分,还是有一段商业化的路径,需要靠人工或技术+商业创新完成。

第一,可控性。无论是商业场景还是创作场景,视频要按照人的意志或规律完成动作,这无疑是个巨大的挑战。

举个例子,有人提出物理模型,实际上目前的Sora能精美生成和炫技,但如果要能展示特定场景,比如一个皮球掉到地上反复弹起来,是要一个物理模型支撑的,目前Diffusion+transformer还无法解决。

第二,prompt(提示词)的挑战本身仍然是个技术活儿,视觉领域,一般非专业人员很难用好视觉的生成,这既需要训练,更有待技术突破,让外行变内行。

所以,创作要面向实用场景,空间依旧很大。75分之上,都是场景创新的机会。

场景创新的机会,属于懂场景、懂模型的创造者。

对于好莱坞,大家看过《繁花》就知道了。面对王家卫那样的大导演,科技创新的工具,目前最多可以提高实现指定场景的效率。宝总、玲子、爷叔短时间内是机器替代不了的。

同样的爆发,很可能会在AI视频行业重演,我们看到的可能不是AI让电影人失业,而是AI让电影人们创造更好的作品。

图片

国内外一批创新公司要挂了吗?

首先,赢家未必通吃。美国的商业生态有个显著特点,就是一流公司做平台,二流公司做全线产品,三流公司搞客户。

OpenAI的Sora,是一个伟大的工程进步,有一点像工业界走在了国家拨款支持科研的前面(整个LLM的出现就是这样,搞得学者们很被动),只是这个突破在工业界而不是学界最先实现,距离商业化还有一段路要走。

领先的公司要在关键领域确保自己的领导地位,突破技术,建立平台,也会做垂类应用,但更重视吸引广大开发者参与,而不是有点突破就摊大饼,把应用都做完。这一点,在之前的文章中就分析过(请参考:ChatGPT创业:狮子和土狼一起奔向光明|投资人说)。

所以,60分之上,仍有很大空间。这点,看看Salesforce的上千家应用就清楚了。

其次,根据OpenAI的论文看,支持60秒视频的路径讲的很清楚,帮助很多创业公司节约了数以千万计的探索成本(向OpenAI致敬!),但同时也给创业者提供了很大的想象空间。

如果只要15秒,如果提高视频主体的高度可控性,如果需要控制主体在视频中的路径,会不会有其它的选择?Diffusion transformer是不是有更好的用法?还是那句话,模型能力决定了一个创业团队的高度,60分之上,模型支撑的应用见分晓。会模型、懂应用的创业公司大有机会。

在美国这个市场里,跟跑的大公司喜欢选择通过兼并收购拉近差距,小团队跑得快,起跑快并进大公司价值高。

国内的兼并收购不那么活跃,大厂喜欢下场什么都做。但是OpenAI跑得这么快,这么大的赛道上机会层出不穷,大厂难免没别的想法。

还是那句话,这是一个让狮子和土狼一起奔向光明的大赛场。

<think>嗯,用户想查询Sora2本地部署的最低配置要求。这个问题非常实际,因为视频生成模型对硬件要求很高,用户显然是想评估自己的设备是否足够运行。 从用户提供的引用来看,有几个关键点需要注意: 引用[3]提到Windows 10系统、Python 3.8+、支持CUDA的NVIDIA GPU,但没具体明显存要求。引用[5]则提到"最低8G显存可跑",还具体列出了两个模型文件,其中图生视频模型需要14B_fp8,这个显存要求可能更高。 用户特别关注"最低配置",明可能是个人开发者或小团队,预算有限。需要把配置分成"勉强能跑""推荐配置"两个层级来明比较实用。 考虑到视频生成的特殊性,除了显存,还需要提醒用户注意: 1 模型文件本身很大(从引用[5]看单个模型就GB级) 2 生成视频时的临时内存需求 3 如果做长视频,显存需求会指数级增长 用户引用的资料里混用了Open-Sora-PlanWan2.1两个项目,需要明确指出Sora官方并未开源,目前能部署的都是第三方复现项目。这点很重要,避免用户误解。 最后给出配置建议时,应该按应用场景分级: - 测试demo级(8G显存) - 实用级(24G以上) - 专业级(多卡) 这样用户可以根据自己需求选择。另外务必提醒Windows环境下的CUDA版本兼容问题,这是新手最容易踩的坑。 </think>根据多个开源视频生成项目的部署文档(特别是Open-Sora-PlanWan2.1),**Sora复现模型本地部署的最低配置要求**如下: ### 📌 核心最低配置 1. **操作系统** - Windows 10/11 或 Linux(Ubuntu 20.04+推荐)[^3] 2. **Python环境** - Python 3.8 或更高版本 [^3] 3. **GPU显存(关键项)** - **最低要求:8GB显存** 可运行基础文生视频模型(如Wan2.1的`1.3B_fp16`模型)[^5] - **推荐配置:24GB+显存** 支持更高分辨率(如512x512)长视频生成[^4] 4. **CUDA与cuDNN** - 需与PyTorch版本严格兼容(通常CUDA 11.8+)[^3] 5. **存储空间** - 模型文件:单模型约 **2-15GB**(如`OpenSora-v1-HQ-16x512x512.pth`为14GB)[^4][^5] - 建议预留 **50GB+ SSD空间** 用于依赖库缓存 --- ### ⚠️ 注意事项 1. **分辨率与硬件的关系** - 生成 **480p视频**:8GB显存可勉强运行(需启用`fp16`精度优化)[^5] - 生成 **512x512视频**:需至少24GB显存(如A5000/3090/4090)[^4] - 若显存不足,需通过`--nproc_per_node`减少并行数量或使用CPU模式(速度极慢)[^4] 2. **依赖冲突解决方案** - 强烈建议使用 **Docker容器化部署**(如Open-Sora-Plan方案)避免环境冲突[^1] - 若手动安装,需严格匹配PyTorch+CUDA版本(如`torch==2.0.1+cu118`)[^3] --- ### ✅ 验证方案 可通过以下命令测试GPU兼容性(需提前安装PyTorch): ```python import torch print("CUDA可用:", torch.cuda.is_available()) print("显存容量:", torch.cuda.get_device_properties(0).total_memory/1e9, "GB") print("CUDA版本:", torch.version.cuda) ``` 输出示例: ``` CUDA可用: True 显存容量: 24.0 GB # 达到推荐配置 CUDA版本: 11.8 ``` > 📌 **总结**:若仅需体验基础视频生成,**RTX 3060(12GB)/ RTX 4060 Ti(16GB)** 可满足最低要求;如需生产级应用,建议 **RTX 3090/4090(24GB+)** 或专业级显卡[^3][^5]。 --- ### ❓ 相关问题 1. **如何优化低显存设备上的视频生成速度?** 2. **Docker部署Open-Sora-Plan的具体步骤是什么?** 3. **Wan2.1模型支持哪些自定义参数调整视频质量?** 4. **Windows系统部署时如何解决CUDA与PyTorch版本冲突?** [^1]: Open-Sora-Plan的Docker解决方案 [^3]: 本地环境的系统要求 [^4]: Open-Sora的高分辨率生成配置 [^5]: Wan2.1模型显存需求
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

明矛顿了

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值