Task01：Sora技术路径详解

yxg2012_04_06

已于 2024-03-01 13:12:59 修改

阅读量574

点赞数 11

文章标签：人工智能语言模型开源

于 2024-03-01 00:09:43 首次发布

本文链接：https://blog.csdn.net/yxg2012_04_06/article/details/136383983

版权

本文详细解析了Sora的文本转视频、图像转视频等功能，展示了其在视频时长、分辨率、一致性等方面的提升，同时也讨论了其技术局限和关键组件，如扩散模型、Transformer和数据工程的重要性。

摘要由CSDN通过智能技术生成

1.Sora能力边界探索

1.Sora能力总结：
	1.Text-to-video: 文生视频
	2.Image-to-video: 图生视频
	3.Video-to-video: 改变源视频风格or场景
2.Sora提升：
	1.最大支持60秒高清视频生成，以及基于已有短视频的前后扩展，同时保持人物/
	场景的高度一致性
	2.Extending video in time: 视频拓展(前后双向)如奶茶般丝滑过渡的视频融
	合能力
	3.同一场景的多角度/镜头的生成能力
	4.具有动态摄像机运动的视频。随着摄像机的移动和旋转，人和其他场景元素在
	三维空间中一致地移动
	5.From 1920 x 1080 to 1080 x 1920 视频输出比例自定义支持任意分辨率，
	宽高比的视频输出
	6.生成的视频虽未完全符合世界规律，但已经可以以假乱真，很多检测手段都未
	必能检测出来是AI生成的
3.Sora的局限：
	1.Sora对物理规律的理解仍然十分有限

2.Sora模型训练流程

1.原始视频数据切分为 Patches通过 VAE 编码器压缩成低维空间表示
2.基于 Diffusion Transformer完成从文本语义到图像语义的再映射
3.DiT 生成的低维空间表示，通过 VAE 解码器恢复成像素级的视频数据

在这里插入图片描述

4.统一表示不同类型的视频数据

在这里插入图片描述

5.Sora是一个在不同时长、分辨率和宽高比的视频及图像上训练而成的扩散模型，同时采用了Transformer架构

在这里插入图片描述

6.模型训练：扩散模型 DDPM

在这里插入图片描述

7.模型训练：基于扩散模型的主干 U-Net

在这里插入图片描述

3.Sora关键技术拆解

1.ViT

在这里插入图片描述

2.理解时空编码：Spacetime latent patches

在这里插入图片描述

3.摊大饼法：从输入视频剪辑中均匀采样 n_t 个帧，使用与ViT相同的方法独立地嵌入
每个2D帧(embed each 2D frameindependently using the same method as 
ViT)，并将所有这些token连接在一起

在这里插入图片描述

4.技术报告分析

	1.时空联合建模

在这里插入图片描述

	2.SORA 支持不同长度、不同分辨率的输入

在这里插入图片描述

	3.技术难点：视频压缩网络类似比于Latent Diffusion Model 中的 VAE，但压
	缩率是多少，Encoder的复杂度，时空交互的range还需要进一步的探索和实验
	4.Peebles 在ICCV上发表了一篇Dit 的工作该文章在TechnicalReport的
	Reference中给出：结合 Diffusion Model 和 Transformer，通过 Scale 
	up Model 提升图像生成质量图像的scaling技术运用到视频场景非常直观，可以
	确定是 SORA 的技术之一

在这里插入图片描述

	5.Diffusion Transformer， = VAE encoder + ViT + DDPM + VAE：DiT
	 利用 transformer 结构探索新的扩散模型，成功用 transformer 替换 U-
	 Net 主干

在这里插入图片描述

	6.网络结构：Diffusion Transformer，DiT

在这里插入图片描述

	7.技术难点

在这里插入图片描述

		1.训练数据：OpenAI 使用类似 DALLE3 的Cationining 技术训练了自己
		的 Video Captioner用以给视频生成详尽的文本描述
		2.保证视频一致性：模型层不通过多个 Stage 方式来进行视频预测而是整
		体预测视频的 Latent在训练过程中引入 Auto Regressive的task帮助模
		型更好地学习视频特征和帧间关系

在这里插入图片描述

	8.网络结构： DALLE 2
		1.将文本提示输入文本编码器，该训练过的编码器便将文本提示映射到表
		示空间；
		2.先验模型将文本编码映射到图像编码，图像编码捕获文本编码中的语义
		信息；
		3.图像解码模型随机生成一幅从视觉上表现该语义信息的图像；

在这里插入图片描述

4.个人的思考与总结

1.算力需求增长• 对算力需求增长如何？如 LLM 在服务器形态爆发？推理生产应用端
爆发增长？
	1.SORA 模型参数量预计 <30B，模型参数量不会像 LLM 需要千卡/万卡大规模
	 AI 集群训练（~百卡）；
	 2.DALL·E 3 视频文本标注数据有限（<30B），训练数据不像 LLM 可以无监督
	 学习；
	 3.OpenAI 尚未公布 SORA 商业化时间，视频生成距离成熟还有时间距离（< 
	 半年）；
	 4.目前推理算力比 SD、SDXL 要大2/3个量级，需要结合 AI 训练集群或者 
	 AI 推理集群；
	 5.LLM 大语言模型仍然是2024年消耗算力大头，多模态很多工作建立在语言之
	 上；
	6例：一分钟长度、每秒30帧的视频，平均每帧包含256个token，总计将产生 
	460k token。以 34B 模型（这里只是一个猜测），需要7xA100资源推理。
	Dit XL 输入 512x512， 训练使用一个 TPU V3-256 Pod， 按照 TFLOPS 换
	算约等于 105 个 A100。 那么 Sora 需要的训练和微调的资源会是多少?

在这里插入图片描述

2.技术总结
	1. Scaling Law：模型规模的增大对视频生成质量的提升具有明确意义，从而
	很好地解决视频一致性、连续性等问题；
	2. Data Engine：数据工程很重要，如何设计视频的输入（e.g. 是否截断、长
	宽比、像素优化等）、patches 的输入方式、文本描述和文本图像对质量；AI 
	Infra：AI 系统（AI 框架、AI 编译器、AI 芯片、大模型）工程化能力是很大
	的技术壁垒，决定了 Scaling 的规模。
	3. LLM：LLM 大语言模型仍然是核心，多模态（文生图、图生文）都需要文本语
	义去牵引和约束生成的内容，CLIP/BLIP/GLIP 等关联模型会持续提升能力；

5.学习笔记原文：Sora技术原理详解