编辑:计算机视觉工坊
0.这篇文章干了啥?
这篇文章介绍了DICE,一种用于通过单目图像重建三维手部和面部交互及其变形的端到端方法。DICE模型采用双分支变压器结构MeshNet和InteractionNet来建模局部变形场和全局网格几何,并通过逆运动学模型IKNet输出可动画的参数化手部和面部网格。此外,文章提出了一种新颖的弱监督训练流程,利用少量野外图像并结合深度先验和对抗损失提供姿势先验。实验结果表明,DICE在重建准确性和合理性方面达到了当前最高水平,并且推断速度达20 fps,支持更多的交互式应用。DICE不仅在标准基准数据集上表现出色,还在野外数据上展示了卓越的泛化能力。
下面一起来阅读一下这项工作~
1. 论文信息
论文题目:DICE: End-to-end Deformation Capture of Hand-Face Interactions from a Single Image
作者:Qingxuan Wu, Zhiyang Dou等
作者机构:University of Pennsylvania, The University of Hong Kong等
论文链接:https://arxiv.org/pdf/2406.17988
2. 摘要
从单张图像中重建具有变形的3D手脸交互是一个具有挑战性但至关重要的任务,在AR、VR和游戏领域有广泛的应用。挑战源于单视角手脸交互过程中自遮挡、手和脸之间多样的空间关系、复杂的变形以及单视角设置的模糊性。现