51-43 DragNUWA，集成文本、图像和轨迹实现视频生成细粒度控制

深圳季连AIgraphX

已于 2024-04-25 15:21:32 修改

阅读量1.2k

点赞数 30

分类专栏： aiXpilot 智驾大模型文章标签： stable diffusion 自动驾驶 AIGC 智慧城市计算机视觉

于 2024-04-22 08:45:31 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45035094/article/details/137891420

版权

aiXpilot 智驾大模型专栏收录该内容

58 篇文章 33 订阅 ¥89.90 ¥99.00

订阅专栏

超级会员免费看

微软亚洲研究院与北京大学合作的DragNUWA模型，结合文本、图像和轨迹信息，实现对视频内容的细粒度控制。该模型通过轨迹采样器、多尺度融合和自适应训练策略，处理开放域视频，支持复杂轨迹、多个对象运动和相机运动的控制。实验显示DragNUWA在视频生成的细粒度控制方面表现出优越性能。

摘要由CSDN通过智能技术生成

微软 NÜWA 系列主要功能及发布时间如下：

22年11月，微软亚洲研究院、北京大学联合提出同时覆盖语言、图像和视频的统一多模态生成模型女娲NÜWA，直接包揽草图转图像、图像补全、视频预测、文字指导修改视频等8项SOTA。
23年3月，微软亚洲研究院发布多模态新模型NUWA-XL，可直接生成11分钟长动画。
23年8月，微软亚洲研究院联合北大、中科院提出了一种基于开放域的新型视频生成模型DragNUWA。

生成视频时，主要关注两种运动，即摄像机和对象运动。DragNUWA同时引入simultaneously introduce文本、图像和轨迹信息三种控制因素，使得模型能够同时控制摄像机运动camera movements、多个对象移动object motions以及复杂轨迹complex trajectories，从语义、空间和时间层面对视频内容实现细粒度控制，从而生成具有真实世界场景和艺术绘画特色的视频。

您只要在图上Drag给出运动轨迹，DragNUWA就能让图像中的物体对象按照该轨迹移动位置生成一致连贯的视频！！！

了解本专栏

超级会员免费看

深圳季连AIgraphX

关注

30
点赞
踩
29

收藏

觉得还不错? 一键收藏
打赏
0
评论
51-43 DragNUWA，集成文本、图像和轨迹实现视频生成细粒度控制

DragNUWA，是一种端到端的视频生成模型，可以无缝地结合文本、图像和轨迹输入，从而能够从语义、空间和时间角度进行细粒度和用户友好的控制。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

深圳季连AIgraphX 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。