AIGC专题:Sora是如何成功的?

今天分享的是AIGC专题系列深度研究报告:《AIGC专题:Sora是如何成功的?》。

(报告出品方:中泰证券)

报告共计:15

来源:人工智能学派

Sora:大规模训练的视频生成模型,支持60s 1080p视频生成

◼ 2024年2月15日,OpenAI推出了视频生成模型Sora。Sora进行了大规模的训练,并使用了不同尺寸、分辨率和时长 的视频进行训练,并沿用了扩散模型(Diffusion Model)的思路在Transformer架构上进行训练。

◼ Sora能够生成长达60s的1080p清晰度视频。OpenAI认为,构建Sora这样的缩放视频生成模型(Scaling Video Generation Model)是构建物理世界通用模拟器的可行方法。

◼ 目前Sora内测开放给OpenAI的红队成员,正在对其危害或风险进行评估。

能够理解和生成复杂场景,但对客观物理规律理解不足

◼ Sora能够生成具有多个角色、特定类型的动作以及主体和背景的准确细节的复杂场景。它不仅理解用户在提示中提出的 要求,还理解这些事物在现实世界中的存在方式。

◼ 目前Sora的不足在于难以模拟现实世界中的物理规律,且对于事物发生的因果、时序和空间关系理解不足。例如模型能 够生成一个人咬一口饼干,但饼干可能没有咬痕;模型可能在某些视频中混淆左右;而且可能难以精确描述随着时间推 移而发生的事件,例如跟踪特定的相机轨迹等。

支持多模态结合输入,可编辑、延伸或生成自定义尺寸视频

◼ Sora支持图片和视频的多模态输入,以及多模态的混合输入。除能够根据用户的文本输入生成视频之外,还能够基于 DALL·E 2和DALL·E 3生成的图片再进行视频生成。通过输入原视频和文本提示,Sora能够对目标视频风格进行编辑。 Sora还可以在输入的多个视频之间生成转场镜头,将不同视频丝滑地连接起来。

◼ Sora同样支持(时序)向前或向后延续生成视频,以及可直接以原始尺寸为不同设备生成视频。它还允许用户先以较低 的分辨率快速生成内容,再提升分辨率,以提高生成效率。除此之外Sora还能直接生成高达2048*2048分辨率的图片。

结合GPT、DALL·E的能力与方法,语言理解能力强

◼ 基于强大的GPT和DALL·E模型,Sora在训练过程中完成了文本和视频模态的“对齐”,从而能够理解提示中的词汇 含义,并能够将其对应到生成视频中的事物上,大大提升了生成视频的准确性。Sora采用的推理方法与DALL·E 3类似, 同样是利用GPT将简短的用户提示转化为更详细的描述,并将其发送给视频模型,用以提高视频生成质量。同时Sora的 训练思想也与DALL·E 3类似,也是通过训练文本生成器caption重述文本,再使用生成的文本和视频对模型进行训练。

◼ 我们认为,OpenAI采用的合成数据方式在大幅提升模型效果的同时,相似风格的文本prompt也能够提升Sora与GPT、 DALL·E的联动效果,使得Sora更接近一个“全能”的多模态模型。

报告共计:15页

来源:人工智能学派

  • 24
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值