Interacting Attention Graph for Single Image Two-Hand Reconstruction(单幅图像双手重建的交互注意图)

2203.09364.pdf (arxiv.org)

摘要

图卷积网络(GCN)在单手重建任务中取得了巨大的成功,而利用GCN进行双向交互重建的研究尚不深入。在本文中,我们提出了交互注意图手(IntagHand),这是第一个基于图卷积的网络,可以从单个RGB图像重构两个交互手。为了解决双手重建的遮挡和交互问题,我们在原GCN的每个上采样步骤中引入了两个新的基于注意的模块。第一个模块是金字塔图像特征注意(PIFA)模块,它利用多分辨率特征隐式地获得顶点到图像的对齐。的第二个模块是交叉手注意(CHA)模块,它通过在两个手顶点之间建立密集的交叉注意编码交互手的一致性。作为结果,我们的模型在InterHand2.6M基准测试上的性能大大优于所有现有的双手重建方法。此外,消融研究证实了PIFA和CHA模块在提高重建精度方面的有效性。野外图像和直播视频流的实验结果进一步证明了该网络的泛化能力。我们的代码可在https://github.com/Dw1010/IntagHand获得。

 

 

说明

交互式双手重建是实现虚拟现实(VR)、人机交互(HCI)、机器人、全息交通、数字医学等多种工业应用的基本任务之一。最近,由于深度神经网络[3,12,21,49,52]和大规模数据集[13,16,25,26,53,54],单眼单手姿势和形状恢复取得了巨大成功。然而,双手重建是更具有挑战性的,仍然没有解决的原因有两个。首先,严重的相互遮挡和外貌相似会使特征提取器产生混乱,使得网络很难将手部姿势与图像特征对齐。二是双手之间的互动语境难以把握有效地制定在网络设计和培训过程中。

基于单眼深度的双手跟踪[22,27,28,38 -40]的研究已经进行了多年,并证明了有前景的结果。然而,能量需求和算法复杂度限制了基于深度的方法的普遍应用。最近,Wang等人通过跟踪密集匹配图,提出了一种基于单目RGB的双手重建方法。然而,跟踪过程本身对快速运动是固有的敏感,并没有充分利用相互作用的手之间的先验知识。自大规模双手数据集InterHand2.6M[25]的提出以来,基于学习的单幅图像双手重建方法应运而生。现有的方法[11,18,25,46]要么采用2.5D热图估计手部关节位置[11,18,25],要么将其作为注意图提取稀疏图像特征[46]。然而,在热图中编码的这种稀疏的局部图像特征不能有效地模拟手表面咬合,也不能提取密集的交互上下文。相比之下,基于顶点的图卷积网 (GCN)在单手重建方面取得了巨大的成功[12,23,24,37],但在双手条件下还没有得到证实,前面提到的挑战仍有待解决。

本文提出了一种新的基于GCN单幅图像双手重建方法——交互注意图手(IntagHand)。作为一个基本的管道,我们最初使用GCN以从粗到细的方式回归每个手的网格顶点,类似于传统的GCN[12]。而对于双手任务,天真地使用双流GCN生成双手顶点,无法利用双手之间的交互上下文,导致网络对双手相互遮挡部分产生混淆。此外,在没有任何图像特征反馈的情况下,网络很难像[24,47]所指出的那样将顶点与图像特征对齐。为了解决这些问题,我们为GCN配备了两个新的注意模块。第一个模块是金字塔图像特征注意(PIFA)模块,该模块使用变压器编码器对潜在的顶点特征进行修补。与基于投影的顶点图像对齐[47]不同,PIFA得益于注意机制的全局感知能力,帮助每个顶点在所有图像补丁上寻找对齐。此外,当GCN以由粗到细的方式对网格顶点进行上采样时,我们设计了一个基于编码器-解码器的图像特征提取模块来提取金字塔特征,迫使高分辨率网格利用细粒度特征。第二个模块是交叉手注意(CHA)模块,它将交互上下文编码为手顶点特征。CHA模块允许每只手的顶点密切关注另一只手的顶点特征,以消除歧义的手间咬合。得益于GCN结构和新颖的基于注意力的模块,IntagHand在InterHand2.6M[25]上的性能大大优于现有方法(8.8mm vs . 13.5mm)。此外,我们的方法对于实时应用是有效的,在野外图像和实时视频流上产生良好对齐的双手结果,如图1和我们的项目页面所示。总的来说,我们的贡献总结如下:

- 我们提出了第一个使用基于GCN的网格回归的双手重建方法IntagHand,证明了GCN在双手重建任务中的有效性。

- 我们提出了一个金字塔图像特征注意(PIFA)模块,用全局图像补丁注意提取局部遮挡信息,使手部顶点和图像特征之间更好地对齐。

- 我们提出了一个交叉手注意(CHA)模块隐式建模双手交互环境,提高了密切交互姿势的重构精度。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值