设身处地为你着想:从以外部为中心的视频中摆脱自我中心的视角

24年3月来自德州 Austin 和 Meta FAIR 的论文 “Put Myself in Your Shoes: Lifting the Egocentric Perspective from Exocentric Videos”。

研究的是从外部中心到自我中心的跨视图转换,旨在根据从第三人称(外部中心)视角捕捉参与者的视频记录,生成参与者的第一人称(自我中心)视图。为此,提出一个名为 Exo2Ego 的生成框架,将转换过程分解为两个阶段:高级结构转换,明确鼓励外部中心和自我中心之间的跨视图对应,以及基于扩散的像素级幻觉,它结合了手部布局(hand layout)先验知识以增强生成的自我中心视图保真度。另外,策划了一个全面的从外部中心到自我中心的跨视图转换基准。它是一个同步自我-外部桌面活动视频对的多样化集合,组成于三个公共数据集:H2O、Aria Pilot 和 Assembly101。

给定一段第三人称视频,视频捕捉到一个人打开牛奶盒的画面,从他的角度来看,视觉世界会是什么样子?见下图。由于人类大脑中的镜像神经元 (Ardeshir & Borji 2018b),可以从第一人称视角轻松想象出人的手和牛奶盒的外观和空间关系。然而,由于两种视角之间的明显区别,现有的计算机视觉模型很难做到同样的事情。

请添加图片描述

已经进行了多次尝试来共同理解自我和外部视角 (Elfeki 2018);(Sigurdsson 2018b);(Grauman 2023)。早期的努力探索了如何在给定自我为中心视频的情况下从第三人称视角定位相机拍摄者 (Ardeshir & Borji 2016, 2018a);(Fan 2017);(Xu 2018);(Wen 2021)。为了弥合自我与外部之间的差距,其他工作从并发(配对)的视图(Ardeshir & Borji 2018b);(Sigurdsson 2018a);(Sermanet 2018);(Yu 2019, 2020)或未配对的视图(Xue & Grauman 2023) 学习了视角不变特征。还有在预训练 (Li 2021)、总结 (Ho 2018) 和 3D 姿势估计 (Wang 2022) 期间,增强外部中心视频中的潜在自我中心信号。此外,融合自我和外部视图,可以改善动作识别 (Soran 2015) 和机器人操纵任务 (Jangir 2022)。

本文讨论的是,解决这个未被充分探索问题的重要一步:从外部中心到自我中心的跨视角转换。目标是从外部中心视频记录合成参与者相应的自我中心视角,对视点关系(例如,相机参数或精确的几何场景结构)的假设最少。具体的例子是,该工作专注于合成自我中心的桌面活动,其涉及大量手部与目标的交互,例如组装玩具或倒牛奶。

这项任务可以使许多应用受益,从机器人到虚拟和增强现实 (VR/AR)。例如,AR 助手可以转换第三人称操作视频中显示的视图,向用户展示从他们自己的角度看事物应该是什么样子,例如,在吉他视频中展示手指的位置和弹奏技巧。同样,在机器人学习中,机器人可以通过将他/她的手与目标的交互投射到自我的视角,更好地将其动作与房间里人类教师的动作相匹配。事实上,最近的研究表明,人类的自我视角对机器人学习很有价值 (Bharadhwaj 2023);(Bahl 2022);(Majumdar 2023);(Nair 2022);(Mandikal & Grauman 2021)。

然而,从外部到自我的视角转换极具挑战性。它需要理解可见的手和目标的空间关系,并推断它们在新自我视角中的像素级外观。此外,这项任务并不是严格的几何任务;它本质上是不确定的。目标的某些部分可能在外部视图中不可见(例如,在外部视图中只看到封面,而不是书内的页)需要模型推断被遮挡的部分。

因此,最近流行的几何-觉察新视图合成方法 (Mildenhall 2020);(Niemeyer 2022);(Yu 2021);(Jang & Agapito 2021)无法解决这个问题。关键原因是它们是回归的而不是生成式的,这限制了它们处理稀疏输入视图(本例中是单个外部视图)和主要遮挡的能力。P-GAN (Liu 2020) 和 STA-GAN (Liu 2021b) 分别探索了跨视图图像和视频合成,但他们只研究步行、慢跑和跑步等基本活动,限制了它们在更多样化场景中的适用性。

为了解决这些限制,本文引入一个外部到自我视图合成基准,涵盖从组装玩具到操纵日常物品等各种活动。重要的是,在测试时间内放宽 STA-GAN 对自我中心语义图的要求(Liu et al. (2021b)),从而增强了实际适用性。

传统的几何-觉察方法 (Mildenhall 2020);(Yu 2021) 通过指定相机姿势和执行体渲染来生成新视图,而 Exo2Ego 则提供了不同的视角。这里想在纯概率框架中解决从外部到自我的转换问题。直观地说,这对于解决从外部视图预测自我视图的固有模糊性至关重要,例如由于完全未见过的目标或人体部分。

将 XT ={x1,…,xi,…,xT} 定义为从外部视点捕获的一系列视频帧,其特征是静态背景,其中存在动态参与者和其他目标,i 表示时间索引。这个外部视角揭示了场景中参与者的动作和(可能的)全身姿势。让 YT = {y1,…,yi,… , yT } 表示从第一人称视角捕获的相应自我帧序列。此视角,模拟安装在参与者头部或身体上的摄像机视图,重点关注他们的动作和互动。

外部到自我视图转换的目标,是模拟外部中心摄像机记录的场景中自我中心摄像机拍摄者的视图。寻求一个转换模型,可以将 XT 映射到一系列输出外部帧,YˆT = {yˆ1,…,yˆi ,…,yˆT }。如方程 (1) 所示,给定 XT 时 YˆT 的条件分布,应该与给定 XT 时 YT 的条件分布没有区别:

请添加图片描述

优先将日常桌面活动从外部转换为自我视图,这是自我中心学习中普遍存在的设置,并且经常需要手和目标之间的广泛交互。这个问题极具挑战性,因为转换模型必须在自我视角中产生逼真的手部-目标交互序列,同时还要执行几何和语义推理,即正确预测视觉概念的空间位置和像素级外观。此外,它需要将外部相机捕捉的参与者头部/身体运动与自我视频中的视点变化联系起来。广泛使用的像素到像素生成方法 (Wang et al. 2018b) 在应用时,在处理手部的复杂细节时遇到了困难,可能是因为它平等对待所有像素并且缺乏视图之间的几何对应关系。同时,(至少在操作丰富的场景中)参与者的手是自我视图和外部视图之间的共同点,尽管它们之间存在许多其他差异。

受这些观点的启发,提出 Exo2Ego 框架,它解偶跨视图对应的理解和像素级合成。它由两个关键模块组成,如图 所示:(1) 高级结构转换,用于推断自我视图中手和目标的位置和交互方式。为了实现这一点,训练了一个基于Transformer的编码器-解码器模型,将外部中心框架转换为自我中心的手-目标交互布局。(2) 基于扩散的像素幻觉,通过训练在自我中心手布局上运行的条件扩散模型,学习合成逼真且高质量的像素级细节。

请添加图片描述

给定一个外部中心框架,高级结构转换的目的是训练一个布局转换器去预测自我中心布局,其显示视觉概念的位置和粗略轮廓。具体来说,为了捕捉细粒度的手部与目标交互细节,建议生成手部布局,并将其实例化为 2D 手势。生成的布局质量至关重要,因为它是进一步像素级幻觉的关键参考。为了实现这一点,从(Rombach 2021) 的最新研究中汲取灵感,该研究重点介绍了基于 Transformer 的架构;(Dosovitskiy 2020) 成功地理解跨视图对应关系,因为它们减少了本地-偏差。考虑到 Transformer 有可能隐式表示几何信息,采用纯基于 Transformer 的编码器-解码器架构,这能够有效地整合和处理外部场景的综合上下文,从而帮助生成精确的自我中心手部布局。

推断出自我中心的手势布局之后,像素级幻觉的下一步目标是通过考虑外部中心框架和目标(target)自我中心布局来合成照片级逼真的自我中心框架。用 (Ho 2020) 中提出的去噪扩散概率模型 (DDPM) 扩散公式,并在潜空间中训练扩散模型。首先采用 (Rombach 2022) 中使用的预训练变分自动编码器 (VAE) 模型 (Kingma & Welling 2013) ,将原始自我中心框架和条件信息外部中心框架和自我布局,编码到潜空间中。然后,训练扩散Transformer (Peebles & Xie 2022) ,通过逐渐去噪从高斯分布中采样的潜向量学习潜数据分布。具体来说,给定初始噪声图和条件向量,扩散模型生成相应的自我中心潜变量。

将噪声隐向量和条件嵌入连接起来作为去噪transformer的输入即可。与早期基于 GAN 的跨视图转换方法(Wang et al. 2018b,a); (Liu et al. 2020))相比,条件扩散模型会按顺序更新目标(target)自我中心布局的输出,更善于捕捉复杂的自我-外部视图依赖关系并忠实地再现方程 (1) 中条件分布的映射。值得注意的是,模型在整个训练过程中表现出增强的稳定性,并始终如一地产生更高质量的样本,这已在实验中得到验证。

扩散模型以每帧为基础运行,独立于任何先前生成的自我中心帧或过去观察的外部中心帧。但是,Exo2Ego 框架可以无缝集成到视频-到-视频合成技术中,例如 vid2vid (Wang et al. 2018a),增强生成视频的时间连贯性。例如,Exo2Ego 可以生成初始自我中心框架,作为 vid2vid 顺序生成的初始化。

实验中考虑几个基线:(1)Pix2PixHD (Wang 2018b),一种逐帧处理视频的单视图图像转换方法;(2)P-GAN (Liu 2020),一种最近从外部到自我视图转换方法,提出了一个并行生成网络来促进跨视图图像转换;(3)Vid2Vid (Wang 2018a),一种对视频中的时间动态进行建模的单视图视频转换方法;(4)pixelNeRF (Yu 2021),一种类似 NeRF 的模型,以其卓越的泛化能力和对稀疏输入视图的适应性而闻名。注:pixelNeRF 假设相机参数已知,而其他方法则不然。仅在 H2O 上使用 pixelNeRF 进行实验,因为其他两个数据集缺少 pixelNeRF 所需的相机信息。

对于 Exo2Ego 的高级结构转换Transformer,块数 N 设置为 6。用 DiT-XL/2 (Peebles & Xie 2022) 作为 Exo2Ego 的去噪架构。扩散模型针对所有数据集进行 40,000 步训练。pixelNeRF 针对所有数据集进行 70,000 步训练。对于 H2O 和 Assembly101,pix2pixHD 和 P-GAN 训练 100 个 epoch,vid2vid 训练 40 个 epoch。对于 Aria Pilot,分别使用 400 个和 100 个 epoch。

  • 8
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值