MagicAnimate: Temporally Consistent Human Image Animation using Diffusion Model

  1. 问题引入
  • 输入参考图片 I r e f I_{ref} Iref和动作序列 p 1 : N = [ p 1 , ⋯   , p N ] p^{1:N}=[p_1,\cdots,p_N] p1:N=[p1,,pN],其中 N N N表示的是帧数,输出的是 N N N帧的视频,动作和动作序列保持一致,外观和参考图片保持一致;
  1. methods
    在这里插入图片描述
  • video diffusion model来保持帧间一致性,加入了temporal attentio模块;
  • reference encoder来embed参考图片得到reference embedding y a y_a ya,实现上是复制了另外一份unet(不含temporal module),注入到vdm的方式是和middle以及upsample层的self attention层的hidden state进行concat;
  • pose controlnet来获取motion condition y p 1 : K y_p^{1:K} yp1:K
  • 因为是逐段的生成,段与段之间衔接可能不连贯,所以采取了overlap+average得方式来处理;
  • 训练的时候图片和视频统一训练;
  1. 实验
  • 数据集:Tiktok&TED-talks
  • 22
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值