帝国理工开源 | Dyn-HaMR:从动态相机中恢复4D交互手部运动

0. 论文信息

标题:Dyn-HaMR: Recovering 4D Interacting Hand Motion from a Dynamic Camera

作者:Zhengdi Yu, Stefanos Zafeiriou, Tolga Birdal

机构:Imperial College London

原文链接:https://arxiv.org/abs/2412.12861

代码链接:https://dyn-hamr.github.io/

1. 导读

据我们所知,我们提出了Dyn-HaMR,这是第一个从野外动态摄像机记录的单目视频中重建4D全局手部运动的方法。从单目视频重建精确的三维手形是理解人类行为的关键任务,在增强现实和虚拟现实中有重要的应用。然而,现有的单目手重建方法通常依赖于弱透视相机模型,该模型在有限的相机截锥内模拟手的运动。因此,这些方法很难恢复完整的3D全局轨迹,并且经常产生有噪声的或不正确的深度估计,特别是当视频是由动态或移动的相机捕获时,这在以自我为中心的场景中是常见的。我们的Dyn-HaMR由一个多阶段、多目标的优化管道组成,其中包括(I)同步定位和映射(SLAM)以鲁棒地估计相对摄像机运动,(ii)用于生成填充的交互手先验,并改进交互动态,确保在(自)遮挡下的合理恢复,以及(iii)通过结合最先进的手跟踪方法进行分层初始化。通过在野外和室内数据集上的广泛评估,我们表明我们的方法在4D全局网格恢复方面明显优于最先进的方法。这为利用运动摄像机从单目视频中重建手部运动建立了新的基准。

2. 效果展示

与最先进的HaMeR方法的定性比较.可以看出,我们的方法恢复了明显更可信的全局手部运动。

图片

绿色和红色箭头代表手部动作的方向。Dyn-HaMR(我们的)可以解开相机和物体姿态,以恢复现实世界中的4D全局手部运动,同时其他最先进的3D手部重建方法,不能解开运动的来源。

图片

图片

Dyn-HaMR是一个三阶段优化管道,用于从野外视频中恢复4D全局手部运动,即使使用动态相机也是如此。我们的方法可以解开手和相机的运动,以及模拟复杂的手的互动。

3. 引言

在我们日益数字化的世界中,捕捉和解读人体动作对于推动人机交互(HCI)以及增强现实(AR)和虚拟现实(VR)的沉浸式体验至关重要。许多此类应用依赖于单个现成的体戴式相机来捕捉手部动作,通常涉及双手之间的复杂交互。然而,随着身体的移动,相机也随之移动(例如以第一人称视角),从而产生手部动作和相机动作之间复杂的混合。这种动态设置带来了一个基本挑战:即需要从相机本身的动作中分离出感兴趣的手部动作——在没有辅助追踪的情况下,这项任务往往难以完成。

目前大多数单目手部重建方法假设采用弱透视相机模型,在相机坐标系或根相对坐标系中捕捉手部动作。然而,这些方法忽略了相机的运动,仅依赖于二维线索,难以解决深度歧义问题,最终无法恢复准确的全局手部轨迹。

此外,手部交互还带来了额外的障碍,包括频繁的遮挡、截断和漏检。以前的工作要么考虑单手运动这一更简单的场景,要么专注于交互中的双手,但没有专门恢复全局轨迹。即使采用静态相机,由于缺乏强有力的交互先验,现有方法也无法在遮挡或截断的情况下逼真地重建双手。尽管取得了显著进展,但迄今为止,还没有任何方法能够解决在动态相机和复杂手部交互所带来的挑战性条件下完整的4D手部重建问题。同时,也没有公开可用的数据集包含足够的时间信息来学习4D全局交互。

在本文中,我们提出了Dyn-HaMR:一种新颖的多阶段优化框架,用于在动态相机捕捉到的复杂现实环境中重建4D手部运动轨迹。以输入的RGB视频为起点,Dyn-HaMR利用基于现成的方法(如MediaPipe、ViTPose、ACR和HaMeR)构建的稳健的双手追踪系统来分层初始化运动状态。然后,我们使用SLAM系统来估计相对相机运动。我们的多目标优化确保3D形状投影与2D观测结果对齐,同时处理遮挡、漏检,并通过结合启发的学习生成手部运动先验和生物力学约束来确保合理的轨迹。我们还考虑了手部尺寸和相机位移中的比例因子,从而改进了深度推理。

值得注意的是,我们的方法无需精确的三维场景重建,因此可适应野外视频数据。我们通过大量针对动态野外手部交互视频和已建立基准(包括H2O、EgoDexter、FPHA、HOI4D和InterHand2.6M)的实验,证明了该方法的有效性。

4. 主要贡献

我们的主要贡献包括:

• 提出了首个基于优化的方法,能够分离并重建双手的全局4D姿态和形状以及相机轨迹。

• 提出了一种结合生物力学约束的数据驱动手部运动先验,使逼真且复杂的手部交互能够引导优化过程。

• 在具有挑战性的野外视频和基准上进行了全面的实验,与最先进的4D全局运动恢复方法相比,我们的方法在性能上有了显著提高。

5. 方法

我们考虑输入视频V = {I1, · · · , IT},其中包含T帧,每帧包含两个可能进行交互的手,这些手在任意6D相机运动下运动。我们的目标是恢复这两只手在世界坐标系中的全局轨迹。如图2所示,我们受近期动态人体运动感知研究的启发,设计了一个三阶段优化流程。第一阶段利用最新的交互手部姿态估计方法来初始化相机坐标系中每只手的每帧手部状态。与人体不同,从手部图像中提取的运动序列由于自遮挡和快速运动导致的模糊而经常不完整。为了解决这个问题,我们利用最近的手部运动先验来执行生成性运动填补,以考虑漏检。在第二阶段,我们的目标是估计从世界坐标系到相机坐标系的变换,同时优化世界坐标系中的全局运动。为此,我们利用最先进的SLAM系统来计算相对相机运动。为了区分相机和手部运动对全局手部运动的各自贡献,我们还优化了全局(世界)比例因子。第三阶段再次利用学习到的手部运动先验,这次是为了进一步约束手部位移,并结合穿透和生物力学约束来完善复杂交互。

图片

6. 总结 & 未来工作

据我们所知,我们引入了Dyn-HaMR,这是唯--种数据驱动的工作,可以可靠地从复杂的野外视频中恢复两个相互作用的双手的4D全局运动,这些视频包含复杂的场景,由移动的动态相机捕获。Dyn-HaMR通过利用最先进的SLAM系统与提出的交互式手先验相结合来实现这一目标。我们的方法包括一个多目标优化管道,在其中我们估计相机的相对运动,并通过将重建与2D观测对齐来解决运动纠缠和深度模糊问题。我们进一步合并了一个可学习的世界比例因子,以消除局部手部和摄像机运动对全局手部运动的影响。我们的交互先验允许填补缺失的检测,同时确保通过广泛评估证明手部轨迹是合理的。

限制与未来工作。虽然Dyn-HaMR在有限的时间范围内完全有效,但将其扩展到具有生成和推断能力的长序列仍有待探索。开发基于回归的方法是处理长序列的可能方向之一。我们还将致力于改进手部先验并纳入物体交互

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值