51-43 DragNUWA,集成文本、图像和轨迹实现视频生成细粒度控制

微软亚洲研究院与北京大学合作的DragNUWA模型,结合文本、图像和轨迹信息,实现对视频内容的细粒度控制。该模型通过轨迹采样器、多尺度融合和自适应训练策略,处理开放域视频,支持复杂轨迹、多个对象运动和相机运动的控制。实验显示DragNUWA在视频生成的细粒度控制方面表现出优越性能。
摘要由CSDN通过智能技术生成

微软 NÜWA 系列主要功能及发布时间如下:

  • 22年11月,微软亚洲研究院、北京大学联合提出同时覆盖语言、图像和视频的统一多模态生成模型女娲NÜWA,直接包揽草图转图像、图像补全、视频预测、文字指导修改视频等8项SOTA。
  • 23年3月,微软亚洲研究院发布多模态新模型NUWA-XL,可直接生成11分钟长动画。
  • 23年8月,微软亚洲研究院联合北大、中科院提出了一种基于开放域的新型视频生成模型DragNUWA。

生成视频时,主要关注两种运动,即摄像机和对象运动。DragNUWA同时引入simultaneously introduce文本、图像和轨迹信息三种控制因素,使得模型能够同时控制摄像机运动camera movements、多个对象移动object motions以及复杂轨迹complex trajectories从语义、空间和时间层面对视频内容实现细粒度控制,从而生成具有真实世界场景和艺术绘画特色的视频

您只要在图上Drag给出运动轨迹,DragNUWA就能让图像中的物体对象按照该轨迹移动位置生成一致连贯的视频!!!

  • 30
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

深圳季连AIgraphX

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值