Make-Your-Video: Customized Video Generation Using Textual and Structural Guidance

  1. 问题引入
  • text&motion stucture(例如深度图序列) guided video generation;
  1. methods
    在这里插入图片描述
  • text控制:cross attn;
  • depth控制:和noised latents concat都一起作为输入;
  • 时序模块:spatial-temporal residual block&temporal transformer,在训练的时候只训练新加入的时序模块;
  • 在生成长视频的时候质量显著下降:Temporal Masking for Longer Video Synthesis,temporal attention的计算: F t = A t t e n t i o n ( Q t , K t , V t ) = s o f t m a x ( Q t K t T d + M ) V t F_t = Attention(Q_t,K_t,V_t)=softmax(\frac{Q_tK_t^T}{\sqrt{d}} + M)V_t Ft=Attention(Qt,Kt,Vt)=softmax(d QtKtT+M)Vt,其中 M M M是一个下三角矩阵 M i , j = 0   i f   i > j   e l s e   − ∞ M_{i,j}=0\ if\ i > j\ else\ -\infty Mi,j=0 if i>j else 
  1. 实验
  • 使用stable-diffusion-depth加入新的时序模块;
  • 数据使用webvid-10M;
  • 9
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值