人工智能咨询培训老师叶梓 欢迎转载标明出处
传统的文本到图像(Text-to-Image, T2I)扩散模型在图像生成和编辑方面展现出了惊人的质量和多样性。随着技术的发展,文本到视频(T2V)扩散模型应运而生,它们通常通过在预训练的T2I模型基础上增加时间层来实现视频的生成和编辑。然而,现有方法在支持用户定义的摄像机运动和对象运动控制方面存在不足,限制了视频运动控制的灵活性。本文介绍了“Direct-a-Video”,这是一套全新的文本到视频生成框架,它允许用户独立指定一个或多个对象的运动和/或摄像机运动,实现了仿佛在导演视频般的个性化视频创作体验。

方法

图2所示Direct-a-Video的整体流程分为训练阶段和推理阶段,分别用于学习摄像机运动和实现对象运动。
在训练阶段,研究者们对视频样本进行增强,以模拟摄像机的平移和缩放运动。模拟得到的带有平移和缩放参数的视频样本随后被输入到U-Net模型中。同时,这些参数也被嵌入并注入到新引入的时间交叉注意力层中,作为摄像机运动的条件。这种方法的优势在于,它消除了对摄像机运动注释的需求,因为通过增强的数据本身就包含了运动信息。
在推理阶段,用户输入一个包含对象词汇和相关框轨迹的文本提示。系统使用空间交叉注意力调制来指导对象在视频中的空间-时间布局。这一阶段不需要额外的优化步骤,因为交叉注意力层已经在训练阶段学习了如何根据文本提示中的信息来正确地放置对象。值得注意的是,Direct-a-Video的方法通过独立控制摄像机运动和对象运动,有效地将两者解耦,从而允许用户独立或联合地控制这两方面。