人工智能技术应用笔记（一）：SORA已来，AI将开启全新纪元吗？

穿越光年

已于 2024-03-15 16:44:32 修改

阅读量1.3k

点赞数 14

分类专栏：人工智能技术应用文章标签：人工智能笔记人工智能应用

于 2024-02-18 11:08:32 首次发布

本文链接：https://blog.csdn.net/weixin_45512098/article/details/136147889

版权

人工智能技术应用专栏收录该内容

12 篇文章 6 订阅

订阅专栏

本文讲述了OpenAI发布的视频生成模型Sora如何通过先进技术在AI领域引发革新，其对个人创作者和商业公司的潜在影响，以及如何面对和利用这一技术变化。Sora展示了强大的视频生成能力，同时也揭示了其局限和可能带来的行业挑战。

摘要由CSDN通过智能技术生成

本篇为《人工智能技术应用》专栏的第一篇。希望以学习笔记的形式和大家一起了解和探索人工智能技术的实际应用。

《SORA已来，AI将开启新纪元》

01. OpenAI王炸级产品视频生成模型Sora发布

人工智能（AI）行业又迎来了疯狂、震撼的一夜。

北京时间2月16日凌晨2点左右，美国OpenAI公司正式发布其首个文本-视频生成模型Sora。

据悉，通过简短或详细的提示词描述，或一张静态图片，Sora就能生成类似电影的逼真场景，涵盖多个角色、不同类型动作和背景细节等，最高能生成1分钟左右的1080P高清视频。

这是继Runway、Pika、谷歌和Meta之后，OpenAI正式加入到这场AI视频生成领域“战争”当中，同时也是GPT、DALL·E之后，2024年 OpenAI发布的旗下最新、最重要的AI产品系列。

OpenAI强调，“Sora是能够理解和模拟现实世界的模型的基础，我们相信这一功能将成为实现通用人工智能（AGI）的重要里程碑。”

更早之前，昨夜23点，谷歌突然升级Gemini系列模型，并发布用于早期测试的Gemini 1.5第一个版本——Gemini 1.5 Pro，采用稀疏MOE架构，性能和长文本技术都超过了GPT-4 Turbo。

从Sora到Gemini，所有人都在感叹：行业真的变天了，AI快要把人类KO了；好莱坞的时代真的要结束了？

OpenAI今晨公布的首个视频生成模型Sora，采用一种名为扩散模型的技术（diffusion probabilistic models）。而且，与GPT模型类似，Sora也使用了Transformer 架构，并完美继承DALL·E 3的画质和遵循指令能力，生成的视频一开始看起来像静态噪音，然后通过多个步骤去除噪音，逐步转换视频。

对于初学者来说，Sora可以生成各种风格的视频（例如，真实感、动画、黑白），最长可达一分钟 —— 比大多数文本-视频模型要长得多。

这些视频保持了合理的连贯性。相比其他AI视频模型，Sora视频生成质量好多了，更让人“舒服”——没有出现“人工智能怪异”类场景。

比如，AI想象中的“龙年春节”，Sora能形成紧跟舞龙队伍抬头好奇的儿童，也能生成海量人物角色各种行为。

输入 prompt（提示词）：一位24岁女性眨眼的极端特写，在魔法时刻站在马拉喀什，70毫米拍摄的电影，景深，鲜艳的色彩，电影效果。

输入 prompt（提示词）：一朵巨大、高耸的人形云笼罩着大地。云人向大地射出闪电。

输入 prompt（提示词）：几只巨大的毛茸茸的猛犸象踏着白雪皑皑的草地走近，它们长长的毛茸茸的皮毛在风中轻轻飘动，远处覆盖着积雪的树木和雄伟的雪山，午后的阳光下有缕缕云彩，太阳高高地挂在空中距离产生温暖的光芒，低相机视角令人惊叹地捕捉到大型毛茸茸的哺乳动物，具有美丽的摄影和景深效果。

通过这些动图来看，Sora不仅可以在单个视频中创建多个镜头，而且还可以依靠对语言的深入理解准确地解释提示词，保留角色和视觉风格。

当然，Sora也存在一些弱点，OpenAI表示，它可能难以准确模拟复杂场景的物理原理；可能无法理解因果关系；还可能混淆提示的空间细节；可能难以精确描述随着时间推移发生的事件，例如遵循特定的相机轨迹等。

但瑕不掩瑜，Sora不仅能模拟真实世界，而且包括学习了摄影师和导演的表达手法，将AI视频惟妙惟肖地展现出来。

因此，Sora已经成为了目前最强的AI视频生成类模型。

02. Sora发布的潜在影响

▎C端 / 对于普通人

•这或许是独立创作者最好的年代，Sora发布之后，文案、音效、视频AI生成的可用工具都已齐备，一个人可以无痛carry一个短片，好故事将价值千金，有才华的人更难被埋没。但是从另一个角度将，创作门槛降低之后故事的竞争将异常激烈。

•以vision pro为代表的XR产业将再次获得助力——内容匮乏将不再是问题。

•目前当红的短视频推荐的形态可能会发生改变——从系统根据用户喜好推荐短视频，变成针对性生成短视频？或者说，同一个短视频在不同的用户对可以有不同的（实时）微调版本？

▎B端 / 对于商业公司

•所有做AI视频生成的公司将面临第一波危机，但是危中有机。因为OpenAI证明了用大模型的思路做视频是可行的，那么他们需要做的只是证明我也可以用大模型做视频。参考chatGPT火了之后做大语言模型的公司反而更多了而不是更少。

•AI三维生成的公司将面临第二波冲击，由于多目重建技术的存在，视频生成和3D生成的界限是模糊的。所以3D生成可能要重新考虑当前技术路线的合理性和商业叙事逻辑。

•虽然OpenAI没有明说，但是Sora需要的算力不会小，所以显卡公司会迎来新的一波利好，但是不一定利好英伟达。因为现在算力越来越呈现基础设施的特征，而基础设施是各个国家的命脉，即便不考虑禁运，我国不会是唯一一个要求算力自主可控的国家，甚至每个大厂都开始想自己搞显卡或者AI专用算力卡（参考google、特斯拉、openAI、阿里），所以算力领域的竞争者会越来越多。

03. 该如何看待Sora？

1.拥抱变化，让自己成为身边最懂AI的人

拥抱变化，在我看来，这不是一句鸡汤，而是面对变革浪潮来临时的态度。我经常举纽约灯夫的例子，就是恐慌的灯夫永远也无法阻挡电的普及。所以第一批的灯夫，其实都果断的转行，有的去卖灯具，有的去做变电站，有的去做各种电器，后来才有了微波炉、洗衣机、电视机。从电的出现到纽约市最后两个灯夫下岗，中间持续了差不多30年。
作为个体，我们去寻找AI里的机会，别盯着现在AI的不足去吐槽。比如，你挑出现在AI视频里再多的风险、再多的毛病，都不如你试着借助AI用你家宠物的照片生成一个短视频。哪怕漏洞百出，你也能在不停地改变指令的过程中，变成一个能用好AI的人。
我给大家建议一个小的填空题，就是树立个小目标，句式是这样的：“我要努力成为公司里或者班上或者家里或者朋友圈里最会用AI做什么的人”。比如，我们可以这么说：“我要努力成为朋友圈里最会用AI做旅游游记视频的人”。也许等你做到第20个旅游视频的时候，你就成为AI时代的旅游视频博主了。

2.想象自己是一家一人公司的创始人

一人公司，顾名思义，就是一个人。你不一定自己真创业，但是你可以想象自己注册了一家公司，这公司只有你一个人。那么你的这个公司可以从事什么领域的业务，就是你要去研究的方向。
别把这个想象得太难或者太高大上，你只要观察自己的工作和生活中，有哪些地方存在痛点或者是自己擅长的，那么就肯定存在机会。如果你工作中经常要用PPT做报告，那么你就可以设想自己注册了一家PPT制作公司，只不过从文案到策划到PPT设计只有你一个人而已。当你把自己做一个PPT的流程按照公司的逻辑拆开之后，你就知道该如何使用AI了。比如让ChatGPT或者文心一言写大纲，让Midjourney画背景图，让PowerPoint直接从大纲生成幻灯片。当你成为身边最会做PPT的人，这个标签就能给你带来收益。

3.保持好奇心，放大兴趣

AI普及之后，它并不能帮你提升已经达到80分的能力，但是它可以帮你做那些你并不擅长的事情。例如我有画面感和想象力，却毫无画画的能力，我就可以在AI的帮助下一起创作出很好看的画面。
一样的AI工具，你会发现不同人使用出来的威力是截然不同的，这比拼的是人和AI结合的能力。我们往后推演，按照 Sora这种发展，也许今年就可以实现一个功能，就是用指令直接复现电影里的经典镜头。
比如，我就可以写一句“用黑客帝国的子弹时间风格，让罗胖像里面的尼奥一样下腰躲过子弹”。这里面考验的是什么？是要看过黑客帝国这部电影。
印度有位著名导演叫塔西姆·辛，作品非常有创意，拍广告开价也很高。有一回，客户吐槽他说，你就拍一个30秒的广告，要收好几百万美元，说得过去吗？
塔西姆·辛是怎么回答的？他说，你花钱买到的不只是我做导演的这段时间，还有我喝过的每一口酒，品过的每一杯咖啡，吃过的每一餐美食，读过的每一本书，坐过的每一把椅子，谈过的每一次恋爱，去过的每一个地方。你买的是我全部生命的精华转化成的30秒，怎么会不贵？
所以，无论你刷过几百部电影，还是刷过几百部动画剧集，放在以前就是不务正业，放在现在就可能成为你的爆发点，兴趣是最好的学习驱动力。

最后

今天就这些，不过在最后还是要补一句，Sora虽然很厉害，但整个人工智能对更多行业的改造还在非常初级的阶段，焦虑的情绪毫无用处，我们一起把AI用起来。

———————————————————————————————————————

关注微信公众号【数字众生】即刻获取干货满满的 “AI学习大礼包” 和 “AI副业变现指南”

穿越光年

关注

14
点赞
踩
25

收藏

觉得还不错? 一键收藏
打赏
0
评论
人工智能技术应用笔记（一）：SORA已来，AI将开启全新纪元吗？

而且，与GPT模型类似，Sora也使用了Transformer 架构，并完美继承DALL·E 3的画质和遵循指令能力，生成的视频一开始看起来像静态噪音，然后通过多个步骤去除噪音，逐步转换视频。输入 prompt（提示词）：几只巨大的毛茸茸的猛犸象踏着白雪皑皑的草地走近，它们长长的毛茸茸的皮毛在风中轻轻飘动，远处覆盖着积雪的树木和雄伟的雪山，午后的阳光下有缕缕云彩，太阳高高地挂在空中距离产生温暖的光芒，低相机视角令人惊叹地捕捉到大型毛茸茸的哺乳动物，具有美丽的摄影和景深效果。这些视频保持了合理的连贯性。
复制链接

扫一扫