中国首个Sora级视频大模型Vidu震撼发布

Momodel平台

于 2024-04-29 11:16:16 发布

阅读量212

点赞数 5

文章标签：人工智能语言模型 vidu 大模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44015907/article/details/138306338

版权

北京时间2024年4月27日，在2024中关村论坛年会未来人工智能先锋论坛上，清华大学联合生数科技27日正式发布中国首个长时长、高一致性、高动态性视频大模型——Vidu。
该模型采用团队原创的Diffusion与Transformer融合的架构U-ViT，支持一键生成长达16秒、分辨率高达1080P的高清视频内容。

Vidu具备复杂的动态镜头生成能力，不再受限于传统的简单镜头效果如推拉和移动。它可以实现远景、近景、中景、特写等多种镜头效果的切换，在一个画面中围绕统一主体展现出不同的视角。不仅如此，Vidu还能直接创造出长镜头、追焦以及转场效果，为视频注入丰富的镜头表达。作为中国自主研发的视频大模型，Vidu还具备理解中国元素的能力，可以在视频中加入如熊猫、龙等独具中国特色的元素。

Vidu的核心技术U-ViT架构由团队于2022年9月提出，早于Sora采用的DiT架构，是全球首个Diffusion与Transformer融合的架构，完全由团队自主研发。这表明Vidu不仅在技术上实现了创新，而且在知识产权方面也具有显著优势。
Vidu视频大模型的推出，既是对中国人工智能技术的肯定，也是对全球AI领域的一大贡献。它的问世将推动视频内容制作方式的革新，为创作者带来更广泛的创作空间，同时也将推进相关产业的蓬勃发展和进步。

关注

5
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
中国首个Sora级视频大模型Vidu震撼发布

作为中国自主研发的视频大模型，Vidu还具备理解中国元素的能力，可以在视频中加入如熊猫、龙等独具中国特色的元素。Vidu的核心技术U-ViT架构由团队于2022年9月提出，早于Sora采用的DiT架构，是全球首个Diffusion与Transformer融合的架构，完全由团队自主研发。Vidu视频大模型的推出，既是对中国人工智能技术的肯定，也是对全球AI领域的一大贡献。它的问世将推动视频内容制作方式的革新，为创作者带来更广泛的创作空间，同时也将推进相关产业的蓬勃发展和进步。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。