Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion

最新推荐文章于 2024-07-19 23:38:36 发布

尔呦

最新推荐文章于 2024-07-19 23:38:36 发布

阅读量706

点赞数 6

分类专栏： video generation 文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_44994838/article/details/138037414

版权

23 篇文章 0 订阅

订阅专栏

本文介绍了一种结合物体运动和摄像机运动控制的深度学习方法，使用Fourier嵌入和多层感知器处理摄像机移动，通过temporal和spatial注意力机制增强一致性。实验在MSRVTT和AnimalKingdom数据集上评估了模型性能，关注视频质量、框与对象一致性以及摄像机和对象运动的同步.

摘要由CSDN通过智能技术生成

同时支持object movement和camera movement
在这里插入图片描述

camera movement control
a. 需要训练
b. 分为两个平移和一个zoom in的量 $c_{cam}=[c_x,c_y,c_z]$ ，使用的数据是生成的数据MovieShot， $c_{cam}$ 会经过camera embedder，包含Fourier embedder和两个MLP得到 $e_{xy}=MLP_{xy}(F([c_x,c_y])),e_z=MLP_z(F(c_z))$
c. 之后通过新添加一个temporal cross attention层来integrate $F=F+tanh(\alpha)\cdot TempCrossAttn(F,e_{cam}),TempCrossAttn(F,e_{cam})=Softmax(\frac{Q[K_{xy},K_z]^T}{\sqrt{d}})[V_{xy},V_z]$
object movement control
a. 不需要训练
b. user提供起点和终点框以及中间的路径，通过插值可以得到一系列的框；
c. 通过修改spatial cross-attention $CrossAttnModulate(Q,K,V)=Softmax(\frac{QK^T+\lambda S}{\sqrt{d}})V$
d. 有两种修改
ⅰ. Attention amplification.，现在针对object n和frame k的bbox ,增加该区域的attention值
ⅱ. Attention suppression.
实验
a. 基础模型是ali
b. camera control的数据是MovieShot
c. metrics
ⅰ. 评价生成视频的质量：2048 videos from MSRVTT [61] for camera movement task and 800 videos from AnimalKingdom [40] for object motion task.
ⅱ. box和obejct的一致性：CLIP image-text similarity
ⅲ. camera and object motion alignment

关注