国内复现Sora并开源：成本降低46%，序列扩充近百万！

AI知识图谱大本营

于 2024-03-30 14:14:55 发布

阅读量1k

点赞数 23

分类专栏：大模型文章标签：自然语言处理人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43564920/article/details/137172447

版权

大模型专栏收录该内容

58 篇文章

订阅专栏

OpenAI展示创新文生视频模型Sora后，再次在全球范围内掀起了去年“ChatGPT”的盛况，点燃了文生视频赛道。

国内著名开源团队Colossal-AI（潞晨科技旗下）根据Sora技术报告、VideoGPT、扩散Transformers等资料，复现了Sora模型架构方案并将其开源——Open-Sora。

值得一提的是，Colossal-AI还将复现成本降低了46%，同时将模型训练输入序列长度扩充至819K patches。目前，Open-Sora在Github超过1200颗星。

开源地址：https://github.com/hpcaitech/Open-Sora?tab=readme-ov-file

Sora算法复现

根据Sora技术报告展示来看，Sora使用了一个视频压缩网络将各种尺寸的视频压缩成一个隐空间(latent space)的时空块序列(a sequence of patial temporal patch)，然后使用了Diffusion Transformer进行去噪，最后进行解码生成视频。

Open-Sora将Sora可能使用的训练pipeline归纳为下图。

目前Open-Sora已涵盖：

提供完整的Sora复现架构方案，包含从数据处理到训练推理全流程。
支持动态分辨率，训练时可直接训练任意分辨率的视频，无需进行缩放。
支持多种模型结构。由于Sora实际模型结构未知，Open-Sora实现了adaLN-zero、cross attention、in-context conditioning(token concat)等三种常见的多模态模型结构。
支持多种视频压缩方法。用户可自行选择使用原始视频、VQVAE（视频原生的模型）、SD-VAE（图像原生的模型）进行训练。
支持多种并行训练优化。包括结合Colossal-AI的AI大模型系统优化能力，及Ulysses和FastSeq的混合序列并行。

Open-Sora性能优化

不同于LLM的大模型、大激活，Sora类训练任务的特点是模型本体不大（如在10B以下），但是由于视频复杂性带来的序列长度特别长。

在此情况下，PyTorch数据并行已无法运行，而传统的模型并行、零冗余数据并行带来的收益有限。

因此，在支持AMP (FP16/BF16)、Flash Attention、Gradient checkpointing、ZeRO-DP等场景优化策略的基础上，Open-Sora进一步引入两种不同的序列并行方法实现，可以ZeRO一起使用实现混合并行：

1.通用性较强的Ulysses，对小规模或长序列表现可能更好。

2.FastSeq能将qkv projection的计算和all-gather通信重叠，只需多占用一点内存就可更进一步提升训练效率。这两种序列并行方案都可以轻松与ZeRO2共同使用来实现混合并行。

以在单台H800 SXM 8*80GB GPU上使用DiT-XL/2模型的性能测试为例，在600K的序列长度时，Open-Sora的方案比基线方案有40%以上的性能提升和成本降低。

在保证更快训练速度的情况下，Open-Sora还能训练30%更长的序列，达到819K+。

Colossal-AI表示，未来会持续迭代、创新Open-Sora，希望借助开源的力量可以打造媲美Sora的产品，帮助影视、游戏开发、广告营销等领域实现降本增效。

Colossal-AI介绍

Colossal-AI是潞晨科技旗下的著名开源平台，早在去年2月份便率先复现了ChatGPT模型并将其开源。目前，在Github已超过36000颗星，其技术实力可见一斑。

Colossal-AI非常善于大模型的优化，例如，预训练一个大模型需要100块GPU，通过Colossal-AI的优化方案可以降低至50块同时保持性能。可帮助中小企业和个人开发者，能以最小的资源获得极致的大模型体验。

潞晨科技创始人尤洋教授是加州大学伯克利分校博士，IPDPS最佳论文(0.8%, 一作)，ICPP最佳论文(0.3%, 一作)，ACM/IEEE George Michael HPC Fellowship。

被福布斯评选为30岁以下精英(亚洲 2021)，IEEE-CS超算杰出新人奖，UC伯克利EECS Lotfi A. Zadeh优秀毕业生奖，ICML专家审稿人等。

尤洋教授

潞晨科技首席战略官-James Demmel是加州大学伯克利分校杰出教授，ACM Fellow、IEEE Fellow、美国科学院院士、美国工程院院士、美国艺术与科学院院士。

James Demmel

潞晨科技首席技术官卞正达，毕业于新加坡国立大学，师从尤洋教授。在全球超算最顶尖会议SC上发表一作论文，7年高性能AI系统经验，Colossal-AI系统的核心开发者。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

AI知识图谱大本营 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。