Motion-I2V: Consistent and Controllable Image-to-Video Generation with Explicit Motion Modeling

尔呦

于 2024-04-21 11:44:46 发布

阅读量1.1k

点赞数 11

分类专栏： video generation 文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44994838/article/details/138028293

版权

video generation 专栏收录该内容

23 篇文章

订阅专栏

本文介绍了两个阶段的技术：第一阶段利用VideoDiffusionModel进行视频帧间的运动预测，包括光流计算和模型训练；第二阶段是基于预测的运动场和参考图像生成视频，创新点在于使用了motion-augmentedtemporalattention。作者详细阐述了模型架构、训练步骤和数据处理方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述
分为两个阶段

stage1:Motion Prediction with Video Diffusion Models
a. video motion field prediction
b. motion field的定义： $\{f_{0\rightarrow i}|i=1,...,N\}$ ，每一个 $f_{0\rightarrow i}\in \mathbb{R}^{2\times H\times W}$ 表示当前帧和参考帧的光流，于是假设已知reference frame上面一个像素的坐标 $p\in\mathbb{I}^2$ ，就可以得到每一个timestep的时候对应的坐标 $p_i'=p+f_{0\rightarrow i}(p)$
c. 模型的训练：分为3步
ⅰ. 首先训练LDM，以image和text作为条件，预测单帧的displacement field;
ⅱ. 冻结LDM的参数，添加temporal模块，单独训练temporal模块
ⅲ. 全量训练
ⅳ. 使用的数据是用FlowFormer++和DOT预测光流和多帧的trajectory
ⅴ. 光流使用了optical flow VAE encoder，结构和LDM autoencoder是类似的，只是输入输出变成两个通道的optical flow map
ⅵ. 还将frame stride作为motion strength经过MLP得到的结果和time embedding相加
stage2:Video Rendering with Predicted Motion
a. 根据stage1生成的motion field和reference image来生成视频
b. 创新点：motion-augmented temporal attention
c. latent feature $z\in\mathbb{R}^{(1+N)\times C_l\times h_l\times w_l}$ ，参考帧 $z[0]\in\mathbb{R}^{1\times C_l\times h_l\times w_l}$ ，随后的帧 $z[1:N]\in\mathbb{R}^{N\times C_l\times h_l\times w_l}$ ，预测的motion field $\{f_{0\rightarrow i}|i=1,...,N\}$ ，得到warp之后的z $z[i]'=W(z[0],f_{0\rightarrow i})$ ,得到 $z_{avg}=[z[0],z[1]',z[1],...,z[N]',z[N]] \in \mathbb{R}^{(1+2\times N)\times C_l\times h_l\times w_l}$ 之后z和z_avg分别reshape到 $z'\in \mathbb{R}^{(h_l\times w_l) \times (1+N)\times C_l}$ 和 $z_{avg}'\in \mathbb{R}^{(h_l\times w_l) \times (1+2\times N)\times C_l}$ ，之后1d attention操作 $Q=W^Qz',K=W^Kz'_{avg},V=W^Vz'_{avg}$
为了支持sparse的trajectory control，在stage1的基础上还训练的一个模型，使用controlnet的方法，输入的稀疏trajectory的 $f_{sparse}\in \mathbb{R}^{N\times 2\times H\times W}$ 和mask $m\in \{0,1\}^{H\times W}$ ，两个concat然后经过conv

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。