人工智能咨询培训老师叶梓 欢迎转载标明出处
视频生成技术逐渐成为研究的热点。最近,一项名为“InteractiveVideo”的新技术框架由香港中文大学多媒体实验室、北京理工大学以及腾讯AI实验室的研究人员共同开发,旨在通过多模态指令实现用户中心的可控视频生成。与传统的视频生成方法不同,它不是单纯依赖用户提供的图像或文本,而是允许用户在视频生成过程中通过直观的机制(如文本和图像提示、绘画、拖放等)与生成模型进行动态交互。这种设计使用户能够通过精确有效的指令进行迭代和细粒度的生成结果优化,从而满足用户对视频内容的特定要求。


方法
图3为InteractiveVideo框架的示意图。在这个框架中,用户可以通过多种模态指令与生成模型进行交互,这些指令包括视频内容、运动和轨迹的编辑。用户可以利用文本、图像、绘画、拖拽等直观的方式来定制视频的各个方面,从而实现高度个性化的视频生成。总的来说用户可以通过以下方式与生成模型互动:
-
视频内容(Video Content):用户可以通过文本指令或直接在图像上进行绘画来添加或修改视频中的对象或场景。
-
运动(Motion):用户可以提供文本描述来指定视频中对象的运动方式和动态效果,例如“一只蝴蝶飞向猫的脸”。
-
轨迹(Trajectory):用户可以通过拖拽操作来定义视频中特定元素的运动轨迹,例如“船在海面上离开”。
在初步阶段,InteractiveVideo通过两个基于潜在扩散模型的生成管道实现可控视频生成:1)文本到图像(Text-to-Image, T2I)管道