InteractiveVideo：以用户为中心的可控视频生成技术

人工智能大模型讲师培训咨询叶梓

已于 2024-08-09 16:45:55 修改

阅读量1.2k

点赞数 17

分类专栏：人工智能文章标签：音视频人工智能计算机视觉深度学习大模型视频生成多模态

于 2024-07-12 12:45:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44292902/article/details/140335521

版权

人工智能咨询培训老师叶梓欢迎转载标明出处

视频生成技术逐渐成为研究的热点。最近，一项名为“InteractiveVideo”的新技术框架由香港中文大学多媒体实验室、北京理工大学以及腾讯AI实验室的研究人员共同开发，旨在通过多模态指令实现用户中心的可控视频生成。与传统的视频生成方法不同，它不是单纯依赖用户提供的图像或文本，而是允许用户在视频生成过程中通过直观的机制（如文本和图像提示、绘画、拖放等）与生成模型进行动态交互。这种设计使用户能够通过精确有效的指令进行迭代和细粒度的生成结果优化，从而满足用户对视频内容的特定要求。

用户可以通过拖拽、绘画颜色、输入文本和编辑等操作来定制视频内容

Gen-2和InteractiveVideo生成结果的对比。第一行是Gen-2的生成结果，第二行是InteractiveVideo的结果，表现了InteractiveVideo在视频生成质量上的优势

方法

图3为InteractiveVideo框架的示意图。在这个框架中，用户可以通过多种模态指令与生成模型进行交互，这些指令包括视频内容、运动和轨迹的编辑。用户可以利用文本、图像、绘画、拖拽等直观的方式来定制视频的各个方面，从而实现高度个性化的视频生成。总的来说用户可以通过以下方式与生成模型互动：

视频内容（Video Content）：用户可以通过文本指令或直接在图像上进行绘画来添加或修改视频中的对象或场景。
运动（Motion）：用户可以提供文本描述来指定视频中对象的运动方式和动态效果，例如“一只蝴蝶飞向猫的脸”。
轨迹（Trajectory）：用户可以通过拖拽操作来定义视频中特定元素的运动轨迹，例如“船在海面上离开”。

在初步阶段，InteractiveVideo通过两个基于潜在扩散模型的生成管道实现可控视频生成：1）文本到图像（Text-to-Image, T2I）管道

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

人工智能大模型讲师培训咨询叶梓 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。