24年3月来自中科大和阿里的论文“Intention-driven Ego-to-Exo Video Generation”。
从自我-到-外部(Ego-to-Exo)的视频生成,是指根据以自我为中心的视频,生成相应的以外部为中心的视频,在AR/VR和具身人工智能方面有着很有价值的应用。受益于扩散模型技术的进步,视频生成取得了显著的进展。然而,现有的方法建立在相邻帧之间的时空一致性假设之上,而在从自我到外部的场景中,由于视角的剧烈变化,这一假设无法满足。为此,本文提出了一个意图驱动从自我到外部的视频生成框架(IDE),该框架利用由人体运动和动作描述组成的动作意图作为与视角无关的表示来指导视频生成,从而保持内容和运动的一致性。
具体而言,首先通过多视角立体匹配(MVSM)来估计以自我为中心的头部轨迹。然后,引入跨视图特征感知模块建立外部视图与自我视图之间的对应关系,指导轨迹变换模块从头部轨迹推断人体全身运动。同时,提出一个动作描述单元,将动作语义映射到与外部为中心图像一致的特征空间中。最后,推断的人体运动和高级动作描述共同指导扩散模型后向过程中外部为中心运动和交互内容(即相应的光流和遮挡图)的生成,最终将它们扭曲成相应的外部为中心视频。在相关数据集上,使用不同的外部-自我视频对,进行大量实验,证明了其在自我-到-外部视频生成中的有效性。
利用以自我为中心的视频生成相应的以外部为中心的视频(如图所示),使得模型能够从不同的角度理解和可视化同一场景(Grauman,2023;Wen,2021;Sigurdsson,2018)。由于提供了更全面的感知,它在AR/VR、具身智能和人机交互方面具有极好的研究价值(Li,2023;Rai,2021)。
受益于现有扩散建模技术的发展,视频编辑和视频生成领域最近取得了重大发展(Yang,2023)。现有的大多数条件视频生成任务都使用文本/图像作为条件来生成相应的视频(Singer,2022;Ho,2022b;Ni,2023;Ho,2022a)。然而,文本数据固有的约束对捕捉复杂的时间动态提出了挑战。此外,一些研究将人体姿势、场景语义、深度图等因素作为条件输入到网络中,为视频生成提供稳健的时空约束(Wang,2023b;Hu & Xu,2023;Yin,2023)。然而,这些线索在以外部为中心和以自我为中心的视角之间很难获得,使得现有方法难以解决从自我-到-外部的视频生成中的一致性问题。这种不一致性主要体现在两个方面:内容和运动。内容不一致源于自我中心视图和外部中心视图之间最小的视觉重叠。同一目标在不同视角下表现出显著的视觉外观和尺度差异。当发生运动时,不一致源于自我中心视图之间的背景变化和从外部视角观察的活动场景内容变化。运动不一致是由于人体和自我中心相机同时运动而显而易见的。头部运动方向、身体运动的相对速度和姿势变化存在差异。这些挑战使得生成与自我中心视频适当对应的外部这些视频变得困难。
在这两个视角之间,人类意图充当与视角无关的不变表示,作为将运动从自我中心视角转移到外部中心视角的桥梁,并缓解因不同视角而产生的内容和运动不一致。受此启发,考虑利用动作意图作为两种视角之间的中介表示,帮助生成与自我中心视频一致的外部中心视频。人类动作意图可以通过人体运动和动作描述来描述。如图(a)所示,人体运动提供关于场景中人体相对位置变化(即旋转和平移)的重要线索,而动作描述提供了指导场景内交互的高级信息(例如,用手触摸手柄完成打开动作)。人体运动很难直接获得。考虑到这一点,探索利用头部和人体运动之间的潜在联系,其中头部运动轨迹提供人体运动的大致方向和平移,从而能够间接推断出大致的人体运动。此外,考虑使用类别tokens作为连接两个视图的桥梁(如图 (b)所示)。这种指导有助于模型从自我中心和外部中心的角度探索目标,建立两个视点之间的内容一致性,并促进头部运动轨迹转化为近似的人体运动。
给定一个以自我为中心的视频Vego = {Iego1, …, IegoT}(T 为 视频帧数)和一个以外部为中心的视频第一帧Iexo1,目标是生成相应的以外部为中心的视频序列。流程如图所示。
首先,引入跨视图特征感知模块(CFPM)来建立以自我为中心的和以外部为中心的视频帧之间的联系。随后,轨迹变换模块(TTM)利用自我-到-外部之间的联系,将头部运动信息转移到以外部为中心的特征上。同时,使用动作描述单元(ADU)将动作语义映射到与外部为中心图像一致的特征空间中,并与调整后的以外部为中心的特征一起输入到扩散模型中,作为生成相应光流和遮挡图的条件。最后,使用扭曲变换获得以外部为中心的视频输出。
框架如图所示,整个过程分为两个阶段:第一阶段训练一个潜在流自动编码器(Ni,2023),第二阶段训练条件扩散模型。第一阶段的网络由三个主要组件组成:一个图像编码器,用于将图像映射到潜在变量;一个光流估计模块,用于估计潜在流 f 和遮挡 m;一个解码器,用于将扭曲的潜在映射转换为最终输出 z ̃。
在训练过程的第一阶段,网络从同一视频中随机选择两帧(Ii和Ij,i ̸= j),然后将 Ii 输入编码器以获得潜在变量z。同时,Ii 和 Ij 输入光流估计模块,以获得从 Ij 到 Ii 的后向光流 f 和遮挡 m。从 z、f 和 m 中,可以得到扭曲的潜在变量 z ̃:z ̃ = m ⊗ W(z, f),其中 W() 表示后向扭曲映射,⊗ 表示逐元乘法。最后,解码器将 z ̃ 解码为最终的 输出 I ̃ 2。模型的训练依赖于损失的重构:Lrec = ||I ̃ j − Ij||^2。此外,在 VGG(Simonyan & Zisserman,2014)的基础上添加了感知损失(Lper),总损失表示为:Lstage1 = Lrec + λLper。λ 表示感知损失权重的超参。
第二阶段冻结第一阶段训练的潜在光流自动编码器的参数,以训练条件视频生成模型,该模型主要包含跨视图特征感知模块(CFPM)、动作描述单元(ADU)、轨迹变换模块(TTM)和潜在扩散模型。具体而言,首先将外部中心和自我中心(Iexo1 和 Iego1)的第一帧一起输入 CFPM,以建立外向中心视图和自我中心视图之间的联系。然后,将输出和头部运动轨迹输入 TTM,以动态调整外部中心的特征表示 rexo。同时,ADU 使用 CLIP(Radford et al.,2021)文本编码器提取动作描述特征 t。最后,将调整后的外部中心特征表示rexo、潜在变量z、以及动作语义特征t联合输入到潜在扩散模型中,作为预测光流和遮挡图潜在变量的条件。
实验选择 LEMMA (Jia et al., 2020),这是一个外部-自我视角对齐的视频数据集,包含多样而复杂的场景和广泛的人类活动。重点是描述智体参与任务的视频,并建立两个分组:(1)已见过:根据动作注释剪切长视频,并直接将所有视频片段按照 8:2 分为训练集和测试集;(2)未见过:将所有长视频按照 8:2 分为训练集和测试集,然后根据注释将每个长视频剪切成短片段。第一个划分主要评估模型对同一场景预测不同动作的能力,而第二个划分评估模型的泛化性能。
在第一阶段,潜在光流自动编码器遵循 LFAE(Ni,2023)的结构,光流估计模块采用 MRAA(Siarohin,2021)实现,并从检测的目标部分估计潜在光流 f 和遮挡图 m。在训练过程中,用 Adam 迭代 120,000 次,学习率为 2e − 4,批处理大小设置为 100,输入图像大小设置为 128 × 128。在第二阶段,CLIP 的视觉和文本编码器被冻结。跨视角特征感知模块、轨迹变换模块、条件扩散模型在学习率为 2e −4、批量大小设置为10、输入大小为128×128、视频帧数 T 为 24 的训练条件下迭代 140,000次。