#AIGC#text2video文生视频，开源DragNUWA：通过集成文本、图像和轨迹对视频生成进行细粒度控制

向日葵花籽儿

已于 2024-01-17 11:34:34 修改

阅读量607

点赞数 7

分类专栏： AIGC RAG 文章标签： AIGC 多模态文生视频人工智能 python 开源

于 2024-01-16 13:46:13 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45312236/article/details/135617394

版权

DragNUWA是一种视频生成模型，通过整合文本、图像和轨迹信息，实现对视频内容的语义、空间和时间精细控制。研究者提出轨迹采样器、多尺度融合和自适应训练策略，解决开放域视频控制的局限。详情可参考https://arxiv.org/abs/2308.08089。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

DragNUWA：通过集成文本、图像和轨迹对视频生成进行细粒度控制
论文地址：https://arxiv.org/abs/2308.08089

DragNUWA 使用户能够直接操纵图像中的背景或对象，模型将这些动作无缝地转换为相机运动或对象运动，生成相应的视频。

DragNUWA，一个开放域的视频生成模型。为了解决现有作品中控制粒度不足的问题，我们同时引入文本、图像和轨迹信息，从语义、空间和时间的角度对视频内容进行细粒度的控制。为解决目前研究中的有限开放域射控问题，我们模型的轨迹有三个方面:一个轨迹采样器(TS)，使开放域控制的任意轨迹，多尺度融合(MF)控制在不同粒度的轨迹，和自适应训练
(AT)策略，以产生一致的视频轨迹。
这里是引用

在这里插入图片描述

效果

拖动形成轨迹，轨迹形成视频、变化相机角度

以拖动（drag）的方式给出运动轨迹，DragNUWA 是一个集成了文本、图像和轨迹控制的系统，可以从语义、空间和时间的角度实现可控的视频生成。

请添加图片描述

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。