OpenAl的野心没有终点——Sora发布
这个世界还真实吗?
1
OpenAI最近推出了一款名为Sora 的全新视频生成模型。
Sora能够依据文字指令,创造出既真实又充满想象力的场景。这款将文字转换成视频的模型让用户能够仅凭他们所写的文字提示词,即可制作出长达一分钟的高仿真度视频,从官网演示看,效果还是相当不错的。
官网链接:https://openai.com/sora
(需科学上网)
如果还不会科学上网可以用这个:科学稳定访问 OpenAI,请复制到浏览器打开
(https://www.52xcjs.xyz/auth/register?code=xhfO6NYFVmzrdBQq)
2
OpenAI持续推进AI技术,将曾属于科幻的能力变为现实。首先推出的是ChatGPT—展现了先进的大语言模型如何支持流畅对话。(作为现在AI技术最杰出的代表,如果你还没有体验过ChatGPT4.0,可以查看 公众号:多福的岛屿,上面有2024年最新注册升级教程~ )
紧接着推出DALL-E,利用文字提示创造出令人赞叹的合成图像。如今,他们又迈出了一大步,推出了Sora。这款新的模型能够根据文字描述直接生成逼真的视频。
Al必胜客OpenAl每次出手,都有一大批Al创业公司应声倒下。今天的倒霉蛋子轮到了Runway和Pika,尤其是Pika,刚爆火就熄火。3个多亿的融资到手还没热乎就等来了病危通知书。
Sora的强大之处在于其能够根据文本描述,生成长达60秒的视频,其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。
目前,Sora 已对网络安全的红队成员开放,以评估其可能存在的风险或潜在伤害。
同时OpenAl 也邀请了视觉艺术家、设计师和电影制作人使用Sora,收集他们的反馈,以使模型更好地服务于创意行业。
3
Sora与其他视频模型的区别:
Sora | 其他 | |
---|---|---|
视频时长 | 60秒 | 2~4秒 |
世界理解能力 | 可理解 | 较弱 |
数字世界模拟 | 支持 | 不支持 |
物体一致性 | 强 | 弱 |
架构 | Transformer | U-Net |
文本理解 | 强 | 一般 |
运动控制 | 提示词 | 提示词+控制工具 |
驱动方式 | 数据 | 图片 |
视频到视频编辑 | 支持 | 部分 |
世界互动 | 支持 | 不支持 |
无缝连接能力 | 强 | 弱 |
3D运动连贯性 | 强 | 弱 |
Sora能够创造出包含多个角色、特定动作类型以及与主题和背景相符的详细场景。这款模型不仅能理解用户的指令,还能洞察这些元素在现实世界中的表现。
Sora对语言有着深刻的理解,能够精准地捕捉到用户的需求,并创造出充满生命力、情感丰富的角色。
此外,Sora 还能在同一视频中创造出多个画面,同时保持角色和视觉风格的一致性。
当然,Sora还不是完美的。
比如在模拟复杂场景的物理效应,以及理解某些特定因果关系时,它可能会遇到难题。举个例子,视频中的人物可能会咬一口饼干,但饼干上可能看不到明显的咬痕。在处理空间细节,比如分辨左右时,Sora 也可能会出现混淆;在精确描述一段时间内发生的事件,如特定的摄影机移动轨迹时,也可能显得力不从心。
4
Sora展现的细节丰富性和逻辑连贯性是迄今AI领域未曾见过的。视频中不仅有复杂的摄影技巧、多个角色、鲜明的情感表现,还有精确的物理效果。Sora 的开发基于OpenAI在图像生成领域(如DALL-E)以及文本生成(比如GPT-3和GPT-4)的先前工作。
即便视频主题暂时移出画面,Sora生成的视频也能保持内容上的一致性。
AI学会了现实世界的物理规律,因此视频中的对象行为真实可信。此外,Sora还采用了变换器模型(transformer architecture),使其在生成模型的可扩展性方面超越以往。
5
360公司CEO周鸿祎也发表了一篇《Sora意味着AGI实现将从10年缩短到1年》的文章,值得一看。
其中老周聊在第二点中聊到的,今天很多人谈到Sora对影视工业的打击,我倒不觉得是这样,因为机器能生产一个好视频,但视频的主题、脚本和分镜头策划、台词的配合,都需要人的创意至少需要人给提示词。一个视频或者电影是由无数个60秒组成的。今天Sora可能给广告业、电影预告片、短视频行业带来巨大的颠覆,但它不一定那么快击败TikTok,更可能成为TikTok的创作工具。
这个我深有感触,其实目前很多人都在做自媒体,无论视频号,抖音,小红书还是快手,TikTok,这些都是平台,而真正能产生价值的是内容。像我们这样的内容创作者,有了Sora这样的工具,会使我们更容易得做出内容。至于内容的质量,关键在于我们的创意,想法,思路能否抓住观众的眼球。
毋庸置疑,AI视频是2024 的趋势,但你也得会做内容,才能用好AI视频的工具。
总结
简单来说 Soar:
- 终极目标:高阶数字孪生,用世界模型走向AGI。(AGl有两大路径:世界模型和自我模型)
- 功能介绍:文生视频,图生视频,时间拓展,多视频无缝过渡。
- 局限性:对物理世界理解还不够,大部分视频不能表现出相互作用力。
- 技术原理:没放出太多有价值的,内行不用看,外行看不懂。
如果你还没有体验过ChatGPT4.0,可以查看 公众号:多福的岛屿,上面有2024年最新注册升级教程~
或者与我取得联系(备注GPT4.0):Yzm_Nuyoah