InteractiveVideo:以用户为中心的可控视频生成技术

视频生成技术逐渐成为研究的热点。最近,一项名为“InteractiveVideo”的新技术框架由香港中文大学多媒体实验室、北京理工大学以及腾讯AI实验室的研究人员共同开发,旨在通过多模态指令实现用户中心的可控视频生成。与传统的视频生成方法不同,它不是单纯依赖用户提供的图像或文本,而是允许用户在视频生成过程中通过直观的机制(如文本和图像提示、绘画、拖放等)与生成模型进行动态交互。这种设计使用户能够通过精确有效的指令进行迭代和细粒度的生成结果优化,从而满足用户对视频内容的特定要求。

用户可以通过拖拽、绘画颜色、输入文本和编辑等操作来定制视频内容
Gen-2和InteractiveVideo生成结果的对比。第一行是Gen-2的生成结果,第二行是InteractiveVideo的结果,表现了InteractiveVideo在视频生成质量上的优势

方法

图3为InteractiveVideo框架的示意图。在这个框架中,用户可以通过多种模态指令与生成模型进行交互,这些指令包括视频内容、运动和轨迹的编辑。用户可以利用文本、图像、绘画、拖拽等直观的方式来定制视频的各个方面,从而实现高度个性化的视频生成。总的来说用户可以通过以下方式与生成模型互动:

  1. 视频内容(Video Content):用户可以通过文本指令或直接在图像上进行绘画来添加或修改视频中的对象或场景。

  2. 运动(Motion):用户可以提供文本描述来指定视频中对象的运动方式和动态效果,例如“一只蝴蝶飞向猫的脸”。

  3. 轨迹(Trajectory):用户可以通过拖拽操作来定义视频中特定元素的运动轨迹,例如“船在海面上离开”。

在初步阶段,InteractiveVideo通过两个基于潜在扩散模型的生成管道实现可控视频生成:1)文本到图像(Text-to-Image, T2I)管道 和 2)图像到视频(Image-to-Video, I2V)管道 。框架输出一个包含的视频。用 x 表示图像指令,y 表示内容指令,y′ 表示运动指令,r 表示轨迹指令。更具体地说,轨迹指令通过起始和结束点以及区域掩码来表示,这指示了特定对象的期望移动轨迹。整个流程可以表述为: 在实践中,任何接受文本条件和图像条件作为输入的现成T2I模型都可以用来实现​ 。生成的图像 作为中间图像,是I2V模型的输入。使用 作为I2V管道的图像条件,并将运动指令 y′ 作为文本条件。任何需要图像和文本条件的现成I2V扩散模型都可被采用。设 E 为I2V模型的图像编码器, 为相应的潜在代码, 为第 t 步预测的噪声,经典的视频去噪过程可以表示为:是与方差计划相关的参数。

通过根据用户的操作改变预测的噪声来控制视频扩散过程。概念上,R 表示根据用户操作改变 的函数,交互控制的视频扩散过程可以表示为:具体实现的 R(⋅) 函数通过将用户交互视为去噪残差来实现。中间图像 作为 的条件图像,是用户与视频生成模型之间的“接口”。框架使用户能够通过将他们的交互作为视频去噪过程的新生成条件来与目标视频进行交互。用户的操作被转换为去噪残差,最终控制视频扩散过程。在视频去噪过程中,假设原始中间图像是且相应的潜在代码是 。一旦用户对图像进行了操作,中间图像会相应地改变,记结果中间图像为 且相应的潜在代码变为。使用 来预测视频扩散过程中的噪声。设 t 为时间步,​ 用 预测的噪声, 预测的噪声,使用的噪声由下式给出:其中 λ 是一个超参数,用于平衡学习到的噪声残差和人类指令。然后在去噪过程中使用而不是原始的来生成最终视频。用户对图像的操作可能会影响结果视频的时间连贯性,因为操作可能使中间图像偏离了I2V模型训练时的分布。为了解决这个问题,在视频扩散过程完成后,使用AnimateDiff[10]对结果视频进行后处理。每一帧都通过Group Normalization[39]层、SiLU[11]激活和2D卷积层与中间图像对齐。最终的第 i 帧视频 可以计算为:

实验

在个性化视频部分,研究者展示了InteractiveVideo框架允许用户自由定制视频内容的能力。例如,在图4中,用户使用画笔在静态图像中添加了鸟、波浪和北极光的草图。这些新增的对象在整个视频中被无缝集成和动画化。这不仅展示了即使参考图像中不直接包含对象,InteractiveVideo也能够生成具有令人满意时间连贯性的视频,同时也显示了框架在创造多样化和引人入胜的视频内容方面的多功能性和适应性。

如何使用InteractiveVideo添加和动画化视频内容中之前未见过的物体

在细粒度视频编辑部分,InteractiveVideo克服了现有方法在精确区域编辑方面的限制。现有方法在生成过程中难以解释如“左”,“右”,“上”,“下”等自然语言参考,这使得准确编辑区域语义变得困难。相比之下,InteractiveVideo允许用户在中间图像上进行直观的操作。如图5所示,用户可以轻松修改特定区域的树木颜色、云彩或标志,生成的视频具有高质量的现实运动、适当的光反射和视觉上吸引人的纹理。

InteractiveVideo在执行精确的区域编辑方面的能力

在精确运动控制部分,InteractiveVideo在处理复杂空间时间模式时表现出色,尤其是在保持生成视频的时间一致性方面。这主要得益于1D时间注意力的有限时间感知范围,它难以适应随时间变化的全范围运动相关变化。InteractiveVideo在精确运动控制方面的优势有3点:1) 大范围运动,如图6所示,展示了在现实和卡通风格中人物转身的大范围运动控制。2) 精确运动,如图6第三行所示,展示了一只可爱的柯基犬展示几种不同的迷人姿态。3) 多对象运动,图6的最后两行展示了InteractiveVideo控制多对象运动的能力。

InteractiveVideo在控制大范围运动、精确手势和多对象运动方面的强控制能力

在定量分析部分,使用AnimateBench对InteractiveVideo进行了评估。使用105个独特的案例,这些案例使用七种不同的文本到图像模型创建,每种模型生成五张图像,以进行全面比较。此外,还为每张图像制作了三个与运动相关的提示,以评估不同方法在运动可控性方面的表现。

使用AnimateBench进行的定量比较
不同方法在图像和文本对齐方面的CLIP分数以及用户研究满意度

在生成效率部分,InteractiveVideo在推理过程中的CUDA内存使用情况和延迟。值得注意的是,尽管需要两个独立的扩散模型以实现更好的可控性,但InteractiveVideo能够在大约12秒内生成视频,并且仅占用16GB CUDA内存。

InteractiveVideo在不同生成过程中的时间延迟分析

实验结果表明InteractiveVideo在生成质量、灵活性和可控性方面具有明显优势。InteractiveVideo代表了视频生成领域的新范式转变,它强调用户中心的方法,而不是依赖预定义的图像或文本提示的传统方法。该框架通过直观的界面实现用户与生成模型之间的动态、实时交互。未来,研究人员可能会探索提高模型对复杂用户输入的理解,例如情感意图或抽象概念,以及集成实时反馈循环,使模型能够根据用户输入历史提出创意选项,从而进一步个性化用户体验。

论文链接:https://arxiv.org/abs/2402.03040

  • 12
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能大模型讲师培训咨询叶梓

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值