第六周组会汇报2023/6/11

目录

本周学习目标

本周学习计划

本周学习内容

本周学习总结


本周学习目标

通过阅读论文掌握目前3D手姿态估计的最新研究方法和动向。

本周学习计划

把下载的CVPR2023的论文全部看完。

本周学习内容

阅读了来自CVPR2023的3D手姿态估计的论文

论文1:A2J-Transformer: Anchor-to-Joint Transformer Network for 3D Interacting Hand Pose Estimation from a Single RGB Image

基于单个RGB图像的3D交互手势估计存在自遮挡和手部相互遮挡的主要问题,以及混淆两只手之间相似的外观和通过单目RGB图像估计3D手势的不适定特征等问题。现有方法主要分为基于模型的和无模型的,前者具有更好的性能,但是基于模型的方法通常需要复杂的个性化模型校准,其对初始化敏感且易受影响。因此,本文以回归(回归实际上就是“最佳拟合”)方式关注无模型方式。关键思想:对于有效的3D交互手姿势估计,预测器要同时充分了解关节的局部细节和全局关节上下文,以便来抵抗遮挡和混淆外观模式问题。做法:将基于SOTA深度的单手3D姿势估计方法A2J扩展到来自单个RGB图像的3D交互手姿势估计任务中。A2J存在一些缺陷限制了3D交互手姿势估计效果,本文提出在Transformer的非局部编码解码框架下扩展A2J来构建A2J-Transformer以解决A2J自身存在的缺陷。与近期提出使用Transformer进行3D交互手势估计的无模型方法相比,A2J-Transformer存在一些优势(不需要类似关节的关键点检测,不严格限制查询数等于联合数以促进模式拟合能力,查询位于3D空间而不是2D)。在数据集InterHand2.6M上本文的方法与先进方法比较,所提出的模型在性能、运行速度和模型大小方面达到了整体的最佳性能,与Moon方法相比,A2J-Transformer在三种情况(singletwoall)下平均每个连接位置误差(MPJPEMean Per Join Position Error)得到了4.065.064.59mm的性能提升;与基于SOTA模型的Hampail方法相比,得到了2.893.383.15mm的性能提升。在运行速度上,A2JTransformer具有快速的推理速度FPS(每秒帧数)达到25,除了基线Moon方法外超过了所有方法。A2J还有最小的模型尺寸,只有42个参数。(这些特性有助于模型的扩展和实时3D手姿态估计。)在数据集RHP上的实验表明A2J-Transformer在推理期间不依赖地面实况信息的情况下其端点误差(EPEend point error)只有17.75低于其他方法,是优于其他方法的,同时显示出了A2J-Transformer的泛化能力。本文还在NYUHANDS 2017两个数据集上与基于深度的先进的单手估计方法进行比较,这个实验被用来验证A2J-Transformer模型的泛化能力,在NYU上本文所提出的方法的平均误差为8.43mm(全场最佳为Fang方法值为8.29),FPS24.81(表现一般,但Moon方法的FPS35,与之比较接近),在HANDS 2017上这两个参数分别为8.32(达到全场最佳),24.81MoonFPS3.5,本文方法更优),虽然并没有表现出最佳的性能但整体得到的实验数据还是能与先进方法有所比较的。

论文2:A Probabilistic Attention Model with Occlusion-aware Texture Regression for 3D Hand Reconstruction from a Single RGB Image

基于深度学习从单个RGB图像重建3D手的方法主要分为基于模型的方法和无模型方法,前者严重依赖于模型的参数空间,后者需要大量的3D ground truth来减少深度模糊和弱监督场景中的困难。UCJ阈值在0mm50mm之间的正确关键点百分比(PCK)曲线下的面积)、MPJPE3D关节和地面真实值之间的平均欧几本文提出了一种概率模型(此概率模型结合了基于模型的网络作为先验网络来估计关节和顶点的先验概率分布),用来实现基于模型的方法的鲁棒性,并减少模型方法对模型参数空间的依赖。还提出了一种基于注意力的网格顶点不确定性回归模型(用于捕捉顶点间的依赖关系以及关节和网格顶点间的相关性,以改善它们的特征表示。)。本文还进一步提出了一个基于学习的occlusionaware手部纹理回归模型(来实现高保真的纹理重建)。在HO3Dv2HO3Dv3FreiHAND这三个数据集上分别在有监督和弱监督训练的两种情况下对本文的方法进行了评估。评估参数有A里德距离)、AUCv阈值在0mm50mm之间的正确关键点百分比(PCK)曲线下的面积)、MPVPE(网格和地面真实值之间的平均欧几里德距离)、F5距离阈值为5毫米的顶点的F)、F15距离阈值为15毫米的顶点的F)。在HO3Dv2HO3Dv3这两个数据集上进行的实验,在有监督和弱监督的情况下,与其他方法相比本文的方法取得的性能均有小幅度提升均能得到最大的AUCJ AUCvF5F15和最小的MPJPEMPVPE,(在HO3Dv2数据集上这六个参数在有监督的情况下其值分别为0.8350.8360.6080.9658.38.2,在弱监督的情况下其值分别为0.7870.7840.480.94910.310.8;在HO3Dv3数据集上这六个参数在有监督的情况下其值分别为0.8260.8340.5930.9648.78.3,在弱监督的情况下其值分别为0.7890.7850.4750.94410.510.7; )

论文3:AssemblyHands: Towards Egocentric Activity Understanding via 3D Hand Pose Estimation

本文提供了一个数据集AssemblyHands(一个具有准确3D手部姿势注释的大型基准数据集)来促进研究手持对象交互的自我中心活动。为了获得以自我为中心的图像的高质量3D手势注释,本文提出了一种多视图特征融合和迭代改进的自动标注管道,使用一组初始的手动注释训练模型以自动注释更大的数据集,此模型实现了4.20 mm的平均关键点误差,比Assembly101中提供的原始注释低85%这种管道能够有效地将扩展注释,使AssemblyHands在规模和主题多样性方面成为目前最大的以自我为中心的手部姿势数据集。开发了以自我为中心的3D手部姿势估计的强基线。设计了一个动作分类任务来评估预测的3D手部姿势。为了验证自动注释效果,分别比较了手动、自动、手动+自动注释的数据集上训练的SVEgoNet的性能。在组合注释上训练的模型Train-M+A始终给出最低的错误(在Train-M上的评估Eval-MEval-AEval-M+A得出的结果为24.3828.5828.35,在Train-A上的评估得出的结果为25.1822.2922.45,在Train-M+A上的评估得出的结果为23.4621.8421.92),这表明使用手动和自动混合注释能提高模型性能。由UmeTrack、本文提出的自动标注管道和本文训练的以自我为中心的基线SVEgoNet生成的3D手部姿势的定性样例,从不同的角度对每个模型的预测进行可视化,以自我为中心(第一人称角度)的基线UNetmeTrack从自我中心的角度来看,可以很好的估计手部姿势,但是在外心视图(第三人称)中的可视化显示,它产生了沿着z轴的错误;而本文的多视图自动标注利用多个外心图像的提示克服了这些缺陷,因此在注释上训练的SVEgoNet对这些遮挡情况的结果也更加具有鲁棒性。通过实验验证了从自我中心相机估计的3D手部姿势的动词分类精度,先使用自动标注的手部姿势建立AssemblyHands-A中动词分类精度的上界,在本文的自动标注上训练的动词分类器平均达到了60%的动词准确率。将本文的单视图SVEgoNet与现成的自中心手姿估计器UmeTrack进行比较,其姿态估计度量SVEgoNetMPJPE21.92 mm UmeTrackMPJPE32.91 mmSVEgoNetMPJPE要低33%;对于动词分类精度,使用SVEgoNet预测的手部姿势也大大优于使用UmeTrack (SVEgoNet 54.7 UmeTrack 50.3)。以60.0的上界性能为参考时,使用SVEgoNet姿态的相对性能达到91.1%,明显优于使用UmeTrack83.8%。( SVEgoNet对单个动词的性能进行了测量,在pick upput downpositionscrewunscrew上,SVEgoNet分别将UmeTrack上的动词准确率提高了2.1%6.2%13.1%1.8%4.1%,而remove的准确率则降低了1.8%

论文4:Harmonious Feature Learning for Interactive Hand-Object Pose Estimation

手和物体相互作用时会发生严重的遮挡,从单张图来估计手和物体的姿态具有挑战。现在的方法通常是先从单个主干提取粗略的手和物体特征,再通过交互模块彼此参考进一步增强它们。但是目前的方法忽略了手与物体在特征学习中是竞争的关系(主干将手和物体都作为前景,且它们通常是相互遮挡的。)。本文提出了一种新颖的和谐特征学习网络(HFL网)。HFL网络引入了一个新的框架,结合了单流和双流主干的优点:为手和对象共享一个常见的ResNet-50模型的低级和高级卷积层的参数,而不共享中间层。此策略使中间层能够将手和物体作为唯一目标提取出来,避免了它们在特征学习中的竞争。共享的高级层也迫使它们的特征协调,从而促进它们的共同特征增强。本文作者还提到通过与来自对象流的相同位置的特征连接来增强手的特征。采用后续的自我关注层来深度融合连接的特征。在数据集HO3D上进行手部姿态估计的性能比较实验,本文提出的HFL网的PAMPJPE(平均关节误差)和PAMPVPE(平均网格误差)分别为8.9mm8.7mm,在这个参数上HFL网优于最先进的方法,和基准模型作比较HFL网在这两个值上分别要高出1.2mm1.0mm,在其余指标上HFL网也取得优于其它先进方法的最优结果;还在HO3D上对物体6D姿态估计进行了比较,本文方法的平均ADD-0.1得分为73.3%比基线方法提高了5.6%(基线方法的平均ADD-0.1得分为67.7%),这个比较证明了本文的主干模型的有效性,它在很大程度上消除了手与物体之间的特征学习的干扰,因此获得了更好的物体姿态估计性能。虽然本文方法的主干相较于基线方法更加复杂,但是由于本文方法的图像尺寸为256*256,基线方法中的图像尺寸为512*512,因此主干的时间成本实际上更低,在Titan V GPU上,两种方法的时间成本分别为每幅图像3.87ms7.5ms。在数据集Dex-YCB上进行手部姿态估计的性能比较实验,本文提出的HFL网的PAMPJPE(平均关节误差)和MPJPE(在没有Procrustes对准的情况下的平均关节误差)分别为5.47mm12.56mm,在这两个指标上本文的方法优于所有的先进方法,和基准模型作比较HFL网在这两个值上分别要高出1.11mm2.71mm;还在Dex-YCB上对物体6D姿态估计进行了比较,通过实验表明,本文提出的方法在一些物体的姿态估计上是优于基线方法的(某些情况下不如基线方法),从整体情况平均下来看与基线方法的性能相差不大。(在数据集HO3D上对物体6D姿态估计要优于基线方法,而在数据集Dex-YCB上要稍落后于基线方法,这是因为Dex-YCB中的场景更加复杂:在同一幅图像中通常包含多个相互遮挡的目标,这给目标姿态估计任务带来了严重的干扰)。

论文5:HARP: Personalized Hand Reconstruction from a Monocular RGB Video

本文提出了一种个性化的手部重建方法HARPHand Reconstruction and Personalization),以一个较短人手单目RGB视频作为输入,重建出高保真外观和几何形状准确可靠的手部化身。HARP使用基于网格的参数手模型、顶点位移图、法线图和反照率对手进行建模,而不使用神经组件,与神经隐式表示的主要趋势相反。本文还设计了一种阴影感知可微渲染方案,此方案对手部运动中常出现的高度关节和自阴影具有鲁棒性。对外观评估,本文采用了像素级L1、轮廓交迭(loU)、学习感知图像补丁相似性(LPIPS)和多尺度结构相似性指标(MS-SSIM)来进行验证,对捕获序列的序列分割的外观重建进行定量评估,实验结果表明与基线方法相比HARP可以真实可靠地重建手的外观和更高的细节(使用HARP方法得出的loU +L1 -LPIPS -MS-SSIM + 的值分别为0.9290.0180.0710.902,而使用NIMBLE方法得出的值分别为0.6410.0480.2040.691)。本文还用数据集InterHand2.6M序列上的外观评估来证明了HARP的鲁棒性。为了证明HARP在捕获非分布外观方面的优势,将带有纹身的手视频作为输入,将取得的结果与HTMLNIMBLENHA方法所取得的结果做对比,实验指标为L1 - LPIPS - MS-SSIM + HARP方法所取得的结果均为最佳分别为0.0120.0800.897(以HTML方法的结果为例,其结果值分别为0.0180.1210.836),且从重建结果图来看,NIMBLEHTML方法的重建结果完全丢弃了手上的纹身(因为它们不在这些模型的训练集中)。为了验证本文所设计的阴影感知可微渲染方案的有效性,进行了有阴影建模和无阴影建模的外观重建质量比较,在有阴影建模下所取得的指标L10.0123LPIPS0.051MS-SSIM0.943,而在无阴影建模下所取得的指标分别为0.01290.0540.940,可见阴影感知可微渲染方案的有效性(如果没有正确地建模阴影,每个像素的优化颜色会在该像素处于阴影内外时取平均值,从而导致纹理中出现暗斑。)。

论文6:gSDF: Geometry-Driven Signed Distance Functions for 3D Hand-Object Reconstruction

符号距离函数(SDFsSigned distance functions)是一个有吸引力的框架,近期在图像三维形状重建方面表现出前景。SDFs能推广到不同形状分辨率和拓扑结构,但缺乏对底层3D几何形状的显式建模。本文提出了一种几何驱动的SDFgSDF)方法,该方法编码强姿态先验,并通过解耦姿态和形状估计来提高重建。本文利用手结构并将其作为基于sdf的形状重建的指导,从单目RGB图像中处理手和被操纵物体的重建。为此,先估计手和物体的姿势,并用来指导3D重建。(详细说,我们预测姿势转换的运动学链,并将sdf与高度关节的手部姿势对齐。我们通过几何对齐来改善三维点的视觉特征,并进一步利用时间信息来增强对遮挡和运动模糊的鲁棒性。)。为了评估所提出的手部运动学特征对三维手部重建的贡献,本文在DexYCB数据集上做了一个对比试验,评估指标为CDhHand Chamfer Distance,手倒角距离)、FSh1(在1mm 阈值处f的评分)、FSh5(在5mm 阈值处f的评分),有三个模型Kh1 (不使用任何姿态先验来变换3D点)、Kh2 (仅使用手腕位姿将3D点转换为AlignSDF)、Kh3(计算了所有手关节的变换),在Kh3上所有评估指标达到最佳性能(实验结果所得指标值分别为0.3170.1710.788),与Kh1 相比本文的模型在CDhFSh1上分别得到了12%9%的改进,与Kh2相比本文的模型将CDh0.344cm2减少到了0.317cm2,得到了7.8%的改进,该结果证明了姿态先验的重要性和gSDF在三维手部重建中的优势。为了评估所提出的对象运动学特征的有效性,本文在DexYCB数据集上做了一个对比试验,评估指标为CDoObject Chamfer Distance,物体倒角距离)、FSo5(在5mm 阈值处f的评分)、FSo10(在10mm 阈值处f的评分),有三个模型Ko1 (不包含任何位姿先验)、Ko2 (将查询点对齐到目标中心)、Ko3(进一步利用手的姿态来产生物体的运动学特征),在Ko3上所有评估指标达到最佳性能(实验结果所得指标值分别为1.710.4180.689),与Ko2相比本文提出的目标运动学特征在CDoFSo@5上分别提高了11%5.5%以上。将本文提出的gSDF模型与最先进的方法在数据集ObManDexYCB上进行比较,评估指标为CDh- FSh1+ FSh5+ Cdo- FSo5+ FSo10 +Eh-Eo-,在ObMan上,本文提出的gSDF(该方法所取得的结果分别为0.1120.3320.9353.140.4380.6600.933.43)在性能上明显优于以前的方法(以方法Chen为例,其取得的结果分别为0.1360.3020.9133.380.4040.6361.273.29,与方法Ye相比gSDFCDhCDo精度上分别提高了17.6%7.1%,这表明gSDF模型可以更好地重建手网格和各种目标网格;在DexYCB上,gSDF模型比最近的方法有了很大的改进,尤其与拥有最先进CDhCDo精度的方法chen相比分别将CDhCdo的精度提高了12.2%14.4% gSDFDexYCB上具有较高的精度,表明其对真实图像具有较好的泛化能力。

本周学习总结

目前我仍不能很好地理解论文中所提到的方法,感到文章晦涩难懂,在接下来的时间应该暂停阅读论文,先系统化学习深度学习相关知识。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值