#AIGC#text2video文生视频,开源DragNUWA:通过集成文本、图像和轨迹对视频生成进行细粒度控制

21 篇文章 0 订阅

DragNUWA:通过集成文本、图像和轨迹对视频生成进行细粒度控制
论文地址:https://arxiv.org/abs/2308.08089

DragNUWA 使用户能够直接操纵图像中的背景或对象,模型将这些动作无缝地转换为相机运动或对象运动,生成相应的视频。

DragNUWA,一个开放域的视频生成模型。为了解决现有作品中控制粒度不足的问题,我们同时引入文本、图像和轨迹信息,从语义、空间和时间的角度对视频内容进行细粒度的控制。为解决目前研究中的有限开放域射控问题,我们模型的轨迹有三个方面:一个轨迹采样器(TS),使开放域控制的任意轨迹,多尺度融合(MF)控制在不同粒度的轨迹,和自适应训练
(AT)策略,以产生一致的视频轨迹。
这里是引用

在这里插入图片描述

效果

拖动形成轨迹,轨迹形成视频、 变化相机角度

以拖动(drag)的方式给出运动轨迹,DragNUWA 是一个集成了文本、图像和轨迹控制的系统,可以从语义、空间和时间的角度实现可控的视频生成。

请添加图片描述请添加图片描述
请添加图片描述
在这里插入图片描述

方法

该研究认为文本、图像、轨迹这三种类型的控制是缺一不可的,因为它们各自有助于从语义、空间和时间角度控制视频内容。如下图 1 所示,仅文本和图像的组合不足以传达视频中存在的复杂运动细节,这可以用轨迹信息来补充;仅图像和轨迹组合无法充分表征视频中的未来物体,文本控制可以弥补这一点;在表达抽象概念时,仅依赖轨迹和文本可能会导致歧义,图像控制可以提供必要的区别。
有以拖动(drag)的方式给出运动轨迹、「变换」静态景物图像的相机位置和角度等各种使用方式

在这里插入图片描述
在这里插入图片描述

轨迹建模

  1. 使用轨迹采样器(Trajectory Sampler,TS)在训练期间直接从开放域视频流中采样轨迹,用于实现任意轨迹的开放域控制;
  2. 使用多尺度融合(Multiscale Fusion,MF)将轨迹下采样到各种尺度,并将其与 UNet 架构每个块内的文本和图像深度集成,用于控制不同粒度的轨迹;
  3. 采用自适应训练(Adaptive Training,AT)策略,以密集流为初始条件来稳定视频生成,然后在稀疏轨迹上进行训练以适应模型,最终生成稳定且连贯的视频。
    在这里插入图片描述

仓库地址:https://github.com/ProjectNUWA/DragNUWA

  • 7
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值