Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion

同时支持object movement和camera movement
在这里插入图片描述

  1. camera movement control
    a. 需要训练
    b. 分为两个平移和一个zoom in的量 c c a m = [ c x , c y , c z ] c_{cam}=[c_x,c_y,c_z] ccam=[cx,cy,cz],使用的数据是生成的数据MovieShot, c c a m c_{cam} ccam会经过camera embedder,包含Fourier embedder和两个MLP得到 e x y = M L P x y ( F ( [ c x , c y ] ) ) , e z = M L P z ( F ( c z ) ) e_{xy}=MLP_{xy}(F([c_x,c_y])),e_z=MLP_z(F(c_z)) exy=MLPxy(F([cx,cy])),ez=MLPz(F(cz))
    c. 之后通过新添加一个temporal cross attention层来integrate F = F + t a n h ( α ) ⋅ T e m p C r o s s A t t n ( F , e c a m ) , T e m p C r o s s A t t n ( F , e c a m ) = S o f t m a x ( Q [ K x y , K z ] T d ) [ V x y , V z ] F=F+tanh(\alpha)\cdot TempCrossAttn(F,e_{cam}),TempCrossAttn(F,e_{cam})=Softmax(\frac{Q[K_{xy},K_z]^T}{\sqrt{d}})[V_{xy},V_z] F=F+tanh(α)TempCrossAttn(F,ecam),TempCrossAttn(F,ecam)=Softmax(d Q[Kxy,Kz]T)[Vxy,Vz]
  2. object movement control
    a. 不需要训练
    b. user提供起点和终点框以及中间的路径,通过插值可以得到一系列的框;
    c. 通过修改spatial cross-attention C r o s s A t t n M o d u l a t e ( Q , K , V ) = S o f t m a x ( Q K T + λ S d ) V CrossAttnModulate(Q,K,V)=Softmax(\frac{QK^T+\lambda S}{\sqrt{d}})V CrossAttnModulate(Q,K,V)=Softmax(d QKT+λS)V
    d. 有两种修改
    ⅰ. Attention amplification.,现在针对object n和frame k的bbox ,增加该区域的attention值
    ⅱ. Attention suppression.
  3. 实验
    a. 基础模型是ali
    b. camera control的数据是MovieShot
    c. metrics
    ⅰ. 评价生成视频的质量:2048 videos from MSRVTT [61] for camera movement task and 800 videos from AnimalKingdom [40] for object motion task.
    ⅱ. box和obejct的一致性:CLIP image-text similarity
    ⅲ. camera and object motion alignment
  • 6
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值