Sora这个风口,到底意味着什么,怎么利用?

本文探讨了OpenAI的新型AI视频工具Sora的爆火现象,分析了其技术原理、与ChatGPT的比较,以及Sora对影视行业可能带来的影响,包括对传统职业的挑战和普通人应如何应对的策略。
摘要由CSDN通过智能技术生成

Hi,大家好呀~
我是一枚对AI十分感兴趣的一枚程序员,一直在思考如何能够利用openAI技术,搞一搞自己的小副业。
去年2月,chatgpt一夜爆火。
没想到,今年2月,OpenAI又整了个大的。
一个叫Sora的AI视频工具,横空出世。

Sora 目前还在内测中,以 GPTs 的经验,大概率需要 GPT4 才能开通,感兴趣的同学可以看看我的 GPT4 .0直接用

Sora生成的图片

爆火范围,穿透科技圈、AI爱好者圈,朝着普通人迎面而来。
据说,很多做视频的,做剪辑的,瞬间就慌了,感觉饭碗要被砸了。
恐慌程度,甚至超过Chatgpt(感兴趣的同学可以看看我总结的使用说明书)面世时。
到底为啥呀?
今天,我们就来唠唠可能产生的影响。
(PS:仅代表个人观点和知识面的总结语思考,欢迎讨论纠错~)

一、Sora到底有多火?


1、央媒亲自下场报道:央视非常罕见的报道 OPENAI 的最新模型,甚至成立了专栏,专门邀请国内 AI 应用以及科学家进行圆桌讨论,讨论该模型的影响
image.png
2、全民狂热:不管是媒体铺天盖地的文章和技术测评,还是全民主动搜索意愿,都能说明大家都被他的效果震惊到了
微信指数:sora 最近这几天的热度已经超过了 gpt
image.png
百度指数也侧面反映了 sora 的狂飙
image.png
3、媒体阅读量
AI 自媒体-卡兹克,凭借 SORA 的公众号文章,一篇文章一天突破了百万阅读
image.png

二、 Sora到底是个啥?

2.1 如何使用?

咱不是搞技术的,就不试图分析技术原理了。我们只从呈现效果、生成难度来分析,这个东西有多牛掰。
大佬们用三个词总结Sora:60s超长长度、单视频多角度镜头、世界模型
三个词咋理解呢?看看下面这段gif,视频时长59秒。
一句话解释:用一段文字生成60s视频的工具。(Sora)

image.png

而给Sora的命令,只有111个字。
一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人走来走去。
仔细看看这段提示词,你可能会发现,其中并没有明确提到镜头切换的指示。
然而,Sora却自动为我们带来了多角度的镜头变换,既有宽广的远景,又有细腻的近景,整个运镜流程宛如一部专业级的影片。这说明了什么?
这恰恰证明了Sora在深度学习了无数影片后,已经深刻理解了镜头语言的奥秘。
那么,究竟什么是“世界模型”呢?让我带你回到那个曾风靡一时的概念——“元宇宙”。
元宇宙的理念是创建一个与真实世界相互交织的虚拟世界,人们通过智能穿戴设备就能沉浸其中。然而,随着时间的推移,人们逐渐意识到模拟一个真实世界是多么的巨大挑战。
要构建这样一个世界,需要多少人力物力去创造数不尽的模型啊!更何况,当时的很多智能设备技术也还远远达不到要求,于是元宇宙的热度逐渐冷却。
但现在,Sora为我们带来了全新的希望。它告诉我们:只要给它一段话,它就能为你自动生成一个三维的世界模型。不论是樱花飘洒的东京街头,还是充满未来感的赛博朋克世界,甚至是一家人欢聚一堂的生日派对,所有这一切,都只需要你的一句话。Sora用它的实力告诉我们,创造虚拟世界不再是一个遥不可及的梦想。

2.2 什么原理?(可以跳过)

非技术向的同学可以先跳过,这里简单介绍 SORA 的原理,感兴趣的同学,我会在后面出一篇文章介绍技术原理和相关的论文。
下面的原理来源于官网的技术报告,感兴趣的同学可以直接阅读原文:Video generation models as world simulators (openai.com)

核心 1:视觉数据(图像/视频)表示成成「patch」

借鉴与大语言模型通过 token 来处理数据,SORA 把视频数据进行统一编码,引入了 patch 的概念。patch 在技术报告中被证明了是一种很好的「表征视频/图像数据」的一种表示方法
image.png

核心 2:视频压缩网络

这是一种可以减少视频数据维度的神经网络,通俗理解,就是把高维数据降到低维,可以减少训练量和推理的成本。最终是成对的,一个是编码器,另一个是解码器,目的是为了在训练的时候减少成本
编码:
输入:原来的视频
输出:在潜空间(latent space)的视频表示
解码
输入:在潜空间(latent space)的视频表示
输出:原来的视频

核心 3:时空的潜在(latent)patch 表示

类似 token 在 llm 是最小单元一样,在视频中,patch 就是最小处理单元。这里需要注意的是,作者支出,图像就是一帧的视频,这里蕴含的意义很大,意味着图像和视频一样,都可以用来训练和处理!!

核心 4:Transformer

Sora 是一个 diffusion 模型,通过接收带有噪声的图像块作为输入,训练预测清晰的图像块。
那么在图像/视频领域,最新处理单元变成了 patch,输入就是 带有噪声的 patch,输出组成视频块的 patch。
而这里作者发现,大力出奇迹在视频模型仍然使用!

2.3 技术文章科普

后续技术补充讨论:

2.4 Sora和市面上其他模型的区别

最大的区别就是,SORA 可以生成 1 分钟的稳定长视频,而且生成的画面质量远高于其他模型
大家可以通过以下两个维度自己去判断 Sora 模型和其他模型的区别

  • 生成画面的质量:Sora 肉眼可见的生成了非常高质量的的画面,无论是时间上的连续性还是空间上的连续性(不同分镜下人物/物体的统一性)
  • 视频的长度:Sora 大概是 1min,而其他模型基本是 3-4s

Sora:什么 pika,runaway 的,都给我跪下!
image.png

三、 Sora能带来什么?

3.1 从chatgpt带来的启发

chatgpt是语言层面的应用很多,已经可以自动生成文案,而且是多语言的文案。相当于解放了思维的一维层面。根据目前的应用,主要包括以下几个方面:
1. 文本生成
用于生成新闻、博客、报告等内容。这种技术可以根据输入的数据、模板和语言模型生成人类可读的文本。文本生成技术还可以用于生成代码、诗歌、小说等各种不同类型的文本。主要是可以节省人力,并且可以生成大量的高质量的文本。
2. 自动文摘
对大量文本内容进行简化、概括的技术。采用机器学习和自然语言处理方法,识别文本中的关键信息,生成简明、准确的摘要。可以大大缩短文本阅读时间,提高效率,帮助用户快速了解文本内容。它在新闻、科技、商业等领域都有广泛应用。
3.语音合成
通过使用计算机算法和语音数据库来生成人类般的语音。语音合成可以用于语音导航、机器人语音交互、语音识别等应用。现代语音合成技术已经取得了巨大的进展,并且在不断提高语音质量方面也取得了显著的成果。比如大家在各个小视频里听到的合成声音,已经比原来要真实很多了。
4 对话生成
回答各种问题,并生成相关的文本内容。对话生成技术在客服、智能助手、帮助中心等领域有着广泛的应用。
5语言翻译
chatgpt就是个语言模型,因此翻译是它的强项,很多博主做过测评,而且官网也有介绍,这个功能是文学、外交、科技等领域的重要工具,也是现代国际化日益增长的需求。
感兴趣的朋友可以参考如下文章查看具体的应用示例,可以试用chatGPT3.5,增加深入的了解 :
https://www.yuque.com/lingganjiao/obgqg7/eofegz1fy7lmlkes
总之,我们可以看到AI对互联网的影响有多大。

3.2 谁的危机?商机就在哪里!

从chatgpt的崛起之路,我们可以预见到Sora将对传统影视公司、虚拟拍摄公司、特效制作和视频广告等领域带来前所未有的挑战,这种挑战几乎是颠覆性的。想象一下,以往那些需要大量人工拍摄和剪辑的空镜头,现在只需Sora和一段文字,便能轻松搞定。
对于那些制作场面宏大的战争剧或历史剧来说,以往为了营造恢弘气势,往往需要大量的群演。但现在呢?有了Sora,或许群演将成为过去式,那么这些人的饭碗岂不是要受到影响?
再来说**说剪辑师。**很多人每天的工作就是在各大视频网站找素材,然后按照要求剪辑。但有了Sora,这一切都变得如此简单,只需输入文字,便可自动生成视频,那么剪辑师的工作是不是也要变得多余了呢?
再比如小说推文博主,以前他们需要四处找视频素材,但现在,只需输入小说剧情,Sora就能为他们生成相应的视频。说不定,小说作者自己就能轻松生成短剧了。
当然,每个变革都会带来不同的声音。有人可能会对此感到不安,但也有人会热烈欢迎。
一些做非个人IP类自媒体博主。比如宠物博主用AI生成猫猫图,然后拼接出一个剧情。比如,猫猫打工、狗狗点外卖、猫猫偷鱼、鹦鹉送外卖、猫猫谈恋爱等。猫、够、鹦鹉不是真的,情节是虚构的,图片素材是假的,只有变现是真的。以前,做一篇内容,他需要生成10~15张图,才能变成一个连贯的剧情。如果有了sora,他就不用这么费事了,只需要一段文字,直接生成视频,剧情还更连贯,跟看动画片似的。说不定还能把自己的猫猫,变成像‘熊出没’一样的IP。
如果有了sora,这些都用不上了。小说剧情一输,视频剧情就出来了。说不定,小说作者自己就能生成短剧了。

所以,Sora的出现,无疑为整个影视行业带来了全新的变革。它让我们看到了技术的力量,也让我们思考,在这个变革的时代,我们应该如何适应和把握机遇

四、普通人该咋办?

每每次新技术的浪潮席卷而来,总会伴随着短暂的混乱与不安,仿佛整个社会都在经历一场未知的震荡。
而这次,AI技术的迅猛发展,更是直接触及了无数打工人的敏感神经。企业追求的降本增效,似乎将我们推向了边缘,而AI则成为了他们眼中的“增效”利器。
然而,我们真的只能被动接受这一切吗?面对这样的变革,我们是否只能感到恐慌、抵触,甚至愤怒?答案显然是否定的。
我们不应沉溺于无用的情绪宣泄,更不应试图去干预那些我们无法控制的事物。这样做只会让我们陷入无尽的痛苦与挣扎。与其在抱怨与不满中度过,不如主动拥抱这个新时代,发掘并发挥我们作为人类的独特优势。
在这个充满变革的时代,我们需要更加明智地看待AI技术的发展。它并不是我们的敌人,而是我们前进道路上的伙伴。
在与AI打交道一年后,我给自己了3条策略:

1、拥抱AI,关注AI发展,勇敢迎接变革

现在,AI的发展正处于一个风起云涌的混战期,市面上的工具多得让人眼花缭乱。尽管AI无疑是未来的必备技能,但我必须提醒你,不要盲目跟风购买各种课程。例如,最近备受争议的某位美术博士的AI课,就引发了广泛的争议和批评。
对于大多数普通人来说,现在最重要的是密切关注AI的发展动态,深入了解AI的应用领域。一旦你找到了与自己相关的部分,再投入时间和金钱去深入学习也不迟。
如果你对AI还一知半解,不清楚市面上有哪些热门的AI工具,更不知道它们能为你解决什么问题,那么我强烈建议你参加知乎知学堂的这场AI扫盲课。只需2小时,仅需1毛钱,你就能全面了解当前AI的发展状况,以及各类工具的实际应用。课程将涵盖9大办公场景,介绍20+主流AI工具,无论你是需要写作、设计还是制作PPT,都能找到合适的工具。
在全面了解了AI的全局之后,你再根据自己的需求决定是否要深入学习。这是一场千载难逢的机会,让你站在AI浪潮的前沿,不被时代淘汰。点击下方,立即开启你的AI学习之旅!记得添加工作人员,听完直播还有超值大礼包等你来领!↓↓↓
AI工具提效训练营🔥送工具精选+Prompt设计指南仅需0.1元

2、融合AI,多读书多思考,激发创造力

AI的创造力,虽然依托于海量的资料库,似乎拥有无限的创意可能,但其本质上仍然是基于已有的数据和信息进行组合和演绎。
这意味着,尽管AI能够模仿和学习,但它的创意始终是有迹可循的,受限于其训练数据和算法逻辑。
而人类的创造力,却是源自内心深处最微妙、最难以捉摸的瞬间灵感。我们的大脑是一个充满奇思妙想的神奇世界,能够产生突如其来、无章可循的创意和想法。这些灵感和创意,往往是我们独特个性、丰富经验和深厚情感的体现,是AI难以企及的。
以我这篇文章为例,即使我将之前写过的所有文章都提供给AI学习,让它尝试模仿我的风格创作一篇新的文章,它也很难完全捕捉到我独特的文风和我文章中那些生动鲜活的案例。因为,我的大脑是一个充满无限可能的创意工厂,随时都能迸发出新的灵感和想法。
因此,我们无需过分担心被AI取代。相反,我们应该珍惜和发掘自己的创造力,多读书、多学习、多思考,不断激发大脑的潜力。只要我们保持对创作的热情和好奇心,就能在这个充满变革的时代中,创造出属于自己的独特价值和意义。

3、利用AI,培养写作习惯,提升个人表达力

第二个需培养的重点,就是表达能力,特指文字表达力。
在AI时代,文字表达力成为了我们与智能技术共舞的核心能力。随着AI生成工具的普及,我们的文字描述成为了塑造虚拟世界的关键指令。这意味着,我们的表达能力不仅影响着内容生成的精细度和清晰度,更在无形中塑造着我们与AI互动的效率。
文字是连接人类智慧与AI技术的桥梁,是我们指导AI创造、理解和呈现世界的语言。在这个变革的时代,文字表达力成为了我们与AI共同创造未来的重要武器。因此,培养和提高文字表达力,不仅是为了更好地与AI交流,更是为了在未来的智能世界中保持我们的创造力和竞争力。
所以,让我们拿起笔,开始书写吧!让我们的文字更加精准、生动、有力,与AI共同绘制出更加美好的未来。通过不断练习和提升文字表达力,我们将能够与AI更加高效地共舞,共同创造出更加精彩的世界。


  • 38
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值