MotionCtrl: A Unified and Flexible Motion Controller for Video Generation

文章探讨了一种结合对象和相机运动的模型,使用多步骤训练策略处理Realestate10K数据集及自动生成的轨迹。模型结构中包含temporaltransformer和自定义模块,通过实验评估了其在视频生成与运动控制方面的表现。
摘要由CSDN通过智能技术生成

在这里插入图片描述
提出一个模型同时考虑到object motion和camra motion,分别对应着OMCM module和CMCM module,因为缺少同时包含text\trajectory\camera pose的数据,所以本文使用的是一个multistep的训练策略

  1. Camera Motion Control Module (CMCM)
    a. 训练的数据:Realestate10K,存在两个问题,一个是没有caption标注,所以使用blip2来标注clip的首帧,1/4,1/2,3/4和尾帧,得到的标注拼接到一起,另一个问题是该数据集的场景比较单一,所以在训练的时候只是训练加入的fc层和temporal attention的第二个self attention层;
    b. 交互的层:temporal transformer层
    c. camera motion使用 3 ∗ 3 3*3 33的rotation matrix和 3 ∗ 1 3*1 31的translation matrix,对于每一个长度为L的clip可以得到 R T ∈ R L × 12 RT\in \mathbb{R}^{L\times 12} RTRL×12,之后扩展到 H × W × L × 12 H\times W \times L \times 12 H×W×L×12,得到的结果和temporal transformer的第一个self attention module的输出拼接,得到的结果经过a fully connected layer到原来的C个通道输入到下一层
  2. Object Motion Control Module (OMCM)
    a. 训练的数据:使用ParticleSfM来生成webvid数据的运动物体trajectory,每个clip选取其中的32帧,得到dense的trajectory之后,在其中随机的选取N条轨迹,此时轨迹比较稀疏,所以还进行了一个gaussian filter操作,在训练的时候,首先使用dense trajectory,然后使用sparse trajectory,在训练的时候只是训练新添加的模块;
    b. 交互的层:卷积层
    c. 对于一个物体,有一条轨迹 { ( x 0 , y 0 ) , ( x 1 , y 1 ) , . . . , ( x L − 1 , y L − 1 ) } \{(x_0,y_0),(x_1,y_1),...,(x_{L-1},y_{L-1})\} {(x0,y0),(x1,y1),...,(xL1,yL1)},转换轨迹为相对位移的表示 { ( 0 , 0 ) , ( u 1 , v 1 ) , . . . , ( u L − 1 , v L − 1 ) } \{(0,0),(u_1,v_1),...,(u_{L-1},v_{L-1})\} {(0,0),(u1,v1),...,(uL1,vL1)},使用 u i = x i − x i − 1 , v i = y i − y i − 1 , i > 1 u_i = x_i-x_{i - 1},v_i = y_i-y_{i - 1},i > 1 ui=xixi1,vi=yiyi1,i>1其中没有轨迹的位置使用的是(0,0)表示,转换后的轨迹尺寸 R L × H × W × 2 \mathbb{R}^{L\times H\times W\times 2} RL×H×W×2
  3. 实验
    a. 训练:16frame, 256*256,sparse的轨迹数量设为8,bs=128, adam optimizer,lr= 1 × 1 0 − 4 1\times 10^{-4} 1×104, 8 × v 100 8\times v100 8×v100, 50000iteration(CMCM)+20000(OMCM dense)+20000(OMCM sparse)
    b. 训练的checkpoints来自videocraft1
    c. 评测:两种motion的控制使用不同的模块,对于camera motion,有8种基础+20种complicated,对于object motion设定了19种不同的trajectory;
    d. 指标分为两种,一个包含FID,FVD和CLIP similarity,在1000个webvid clips上面进行计算,另一种指标来评测camera motion和object motion的cotrol能力,通过计算预测出来的camera pose与object trjectory和GT的欧式距离
  4. 和sota方法的对比,分别和animatediff的camera control以及videocomposer对比,animatediff使用lora来实现camera control,使用一页图片来展示qualitative的对比效果,还使用一张表格来展示定量的指标对比
  5. 消融实验:主要验证CMCM和OMCM integrate的位置、训练策略
  • 6
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值