Sora官方技术拆解

概要

Sora 模型基于 Transformer 架构,建立在 DALL·E 3 和 GPT 模型之上,使用文本到视频的合成技术,按文本提示生成视频。这种技术将自然语言转换为视觉表示形式——图像或视频。

整体架构流程

在这里插入图片描述
在这里插入图片描述

OpenAI 在官网展示 Sora 的生成逻辑

深度神经网络依然是 Sora 的基础,它是一个带有 Transformer 骨架的扩散(Diffusion)模型,AI 从数据中学习并执行复杂的任务。Sora 就是从“学习”的大型视频数据集里学会了各种风格、主题和流派。
Transformer 模型本质是一个编码器-解码器,输入原始语言,生成目标语言。扩散模型的原理是先给数据添加高斯噪声,再反向去除,从中恢复数据本貌。
简单粗暴地理解 Sora 的原理,就是翻译器+搜索引擎+概率制作(内容)。
首先,拿到提示词后,Sora 先分析文本,提取关键字,比如主题、动作、地点、时间和情绪,再从它的数据集里搜索与关键字匹配的、最合适的视频。
其次,Sora 将数据集里合适的视频混合在一起,重新创建一个符合要求的视频。在“创造”的过程中,它要“知道”场景中有哪些对象和角色,它们的外形,它们如何运动,对象如何交互,以及受到环境影响后如何表现。
根据用户的喜好,Sora 会修改视频的风格。假如用户想要一个 35 毫米胶片样式的视频,Sora 会调整效果,更改图像的亮度、色彩和摄像机角度。这一点和 Midjourney 等“文生图”应用类似。
Sora 可以生成分辨率 1920x1080 的视频,也可以基于静止图片创建视频,使用新素材扩展现有素材。比如用户给它一张森林图片,它可以帮你加上鸟、兽、人。给它一张汽车行驶图,它能加上道路、交通灯、沿途建筑物和风景。

在这里插入图片描述

Sora 将两段视频结合后产生的奇幻景象/OpenAI

小结

个人觉得还是得先了解Sora,并先于他人学会Sora的使用,给大家推荐一个Sora的学习使用手册,可以支持一下谢谢!Sora学习使用手册

  • 10
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值