Direct-a-Video:用户导向的定制化视频生成技术

人工智能咨询培训老师叶梓 欢迎转载标明出处

传统的文本到图像(Text-to-Image, T2I)扩散模型在图像生成和编辑方面展现出了惊人的质量和多样性。随着技术的发展,文本到视频(T2V)扩散模型应运而生,它们通常通过在预训练的T2I模型基础上增加时间层来实现视频的生成和编辑。然而,现有方法在支持用户定义的摄像机运动和对象运动控制方面存在不足,限制了视频运动控制的灵活性。本文介绍了“Direct-a-Video”,这是一套全新的文本到视频生成框架,它允许用户独立指定一个或多个对象的运动和/或摄像机运动,实现了仿佛在导演视频般的个性化视频创作体验。

Direct-a-Video系统的示意图

方法

Direct-a-Video的整体流程图

图2所示Direct-a-Video的整体流程分为训练阶段和推理阶段,分别用于学习摄像机运动和实现对象运动。

训练阶段,研究者们对视频样本进行增强,以模拟摄像机的平移和缩放运动。模拟得到的带有平移和缩放参数的视频样本随后被输入到U-Net模型中。同时,这些参数也被嵌入并注入到新引入的时间交叉注意力层中,作为摄像机运动的条件。这种方法的优势在于,它消除了对摄像机运动注释的需求,因为通过增强的数据本身就包含了运动信息。

推理阶段,用户输入一个包含对象词汇和相关框轨迹的文本提示。系统使用空间交叉注意力调制来指导对象在视频中的空间-时间布局。这一阶段不需要额外的优化步骤,因为交叉注意力层已经在训练阶段学习了如何根据文本提示中的信息来正确地放置对象。值得注意的是,Direct-a-Video的方法通过独立控制摄像机运动和对象运动,有效地将两者解耦,从而允许用户独立或联合地控制这两方面。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能大模型讲师培训咨询叶梓

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值