论文阅读——Point-to-Point Regression PointNet for 3D Hand Pose Estimation

最新推荐文章于 2022-12-12 19:56:10 发布

Chhote

最新推荐文章于 2022-12-12 19:56:10 发布

阅读量645

点赞数

分类专栏：论文阅读文章标签：算法计算机视觉人工智能

论文阅读专栏收录该内容

6 篇文章 1 订阅

订阅专栏

Point-to-Point Regression PointNet for 3D Hand Pose Estimation

Point-to-Point在NUY，ICVL，MSRA等大数据集上的表现至今都十分优异，值得一看

与以往直接以2D深度图作为输入然后直接回归关节点的三维坐标方法不同，本文提出的Point-to-Point回归PointNet直接将三维点云作为输入并输出逐点估计(逐点估计可以定义为从点到手关节位置的偏移)

贡献点：

本文建议直接将3D点云作为网络输入，并在输入点云上生成热图和单位向量场，分别反映每点的贴近度和手关节的方向。有了这样一个点到点的回归网络，我们的方法能够更好地利用深度图像中的三维空间信息，捕捉三维点云的局部结构，从而进行精确的三维手姿势估计。
本文建议将堆叠网络体系结构应用于分层的PointNet，以进行点到点回归，这是我们所知的第一个堆叠的PointNet体系结构。堆叠式PointNet架构将一个模块的输出作为下一个模块的输入，允许在3D点云上重复自下而上和自上而下的推理，并且能够在我们的实验中提高估计精度。
本文分析了我们的点到点回归方法的局限性，并建议当点到点回归方法的候选估计之间的差异太大时，使用直接回归方法的结果作为替代。实验表明，直接回归法与点到点回归法是互补的，二者的结合可以进一步提高估计精度。

Introduction

在这里插入图片描述
本文提出的基于单深度图像的三维手部姿势估计的点到点回归方法的概述图。本文建议直接将N个采样和归一化的3D手点作为网络输入，并在输入点云上输出一组热图和单位向量场，分别反映输入点到J手关节的接近度和方向。根据网络输出，我们可以推断手关节的点方向偏移，并通过后处理估计三维手姿势。我们采用分层的PointNet和两层网络结构，将一个模块的输出作为下一个模块的输入。为了便于说明，现在只可视化了一只手关节的热图、单位向量场和偏移场。”C.S.“代表坐标系；”MLP’代表多层感知器网络。

PointNet---->分层PointNet，值得学习一下

Methodology

方法分成几个阶段：

点云预处理（Preprocessing）

a) 首先使用深度相机的固有参数将手部深度图像转换为一组3D点。 b) 将3D点集下采样到N个点。 c) 从三维点云创建定向边界（OBB），并将三维点转换为OBB C.S(coordinate system)，并对点集坐标归一化。

基于点云的三维手部姿势表示

与需要学习高度非线性映射的直接回归方法相比，我们的方法旨在从点云生成手关节位置的逐点估计，这能够更好地利用局部证据。逐点估计可以定义为从点到手关节位置的偏移。但是，估计点集中所有点的偏移是不必要的，可能会使每点投票产生噪音。因此，我们只估计手关节相邻点的偏移量，如图2所示。我们为点 $p i (i = 1 ， \cdot \cdot ， N)$ 和地面真值手关节位置 $φ$ 定义目标偏移场 $V$ 中的元素 $\phi{^*_j}(j=1，··，j)$ 为：
在这里插入图片描述
与[46]在2D图像上生成热图和单位向量场不同，我们提出的方法在3D点云上生成热图和单位向量场，如图2所示，这可以更好地利用深度图像中的3D空间信息。此外，在具有较大空白背景区域的2D图像上生成热图和单位向量场可能会分散神经网络学习手部区域有效特征的注意力。虽然这个问题可以通过在损失函数中乘以一个二进制手掩模来缓解，但我们的方法能够以自然的方式集中学习手点云的有效特征，而不使用任何掩模，因为输出热图和单位向量场在手点云上表示。

网络结构

在这里插入图片描述
单层网络结构：基于分层点网的单个网络模块的图示。这里，“SA”代表点集抽象层FP’代表特征传播层；'MLP’代表多层感知器网络。虚线快捷方式表示跳过功能连接的链接。

带有中间监督的两层分层PointNet体系结构的说明。第二个网络模块的输入特征尺寸为 $C_{in2}=C_{in1}+C_{out}+4J$ 。
在这里插入图片描述
损失函数

手部姿势推断

在测试过程中，根据热图 $H$ 和上一个层次PointNet模块估计的单位向量场ˆU推断出三维手姿势。
在这里插入图片描述
$\phi_j$ 是手部关节点的坐标， $V_{i_mj}$ 是对应的偏移向量， $p_{i_m}$ 是3D点，这里 $w_m$ 是候选估计的权重。在我们的实现中，我们将权重 $w_m$ 设置为相应的热图值 $H_{i_mj}$ ，并将 $M$ 设置为25

后处理

本文的Point-to-Point回归方法存在两个问题。第一个问题是，当M个候选估计的散度在3D空间中较大时，估计是不可靠的。这通常是由于缺少手关节附近的深度数据造成的。第二个问题是，虽然神经网络可以在输出热图和单位向量场中学习关节约束，但对估计的三维手姿势没有明确的约束。
为了解决第一个问题，当M个候选估计的差异大于阈值时，我们用直接回归方法的结果替换估计结果，该方法直接回归手关节的三维坐标，因为直接回归方法没有这个问题。为了节省推理时间，我们没有为直接手姿势回归训练单独的点网，而是在预先训练的两个堆叠层次点网中添加三个完全连接的直接手姿势回归层，如图5（b）所示。训练三个完全连接的层，从第二层次点网模块提取的特征直接回归手关节的三维坐标。M个候选估计的散度定义为候选估计的x、y和z坐标的标准差之和。在我们的实现中，我们将分歧阈值设置为7.5mm/Lobb。第4.1节中的实验结果将表明，尽管只有一小部分手关节估计需要用直接回归结果替换，但这种替换策略可以在一定程度上提高估计精度。
为了解决第二个问题，我们明确地将估计的三维手姿势ˆΦ约束在通过主成分分析（PCA）学习的低维空间上。通过对训练数据集中的地面真值3D关节位置执行PCA，我们可以获得主成分E=[e1，e2，·eH]（H<3J）和经验平均值u。可使用以下公式计算受约束的3D手姿势：
在这里插入图片描述

最后，将归一化OBB C.S.中估计的3D手关节位置转换回摄像机C.S. ˆΦcam中的关节位置。

实验结果（Experiments）

本文在三个公共手姿势数据集上评估了提出的方法：纽约大学数据集[43]、ICVL数据集[36]和MSRA数据集[35]。纽约大学数据集[43]包含72757帧用于训练样本，8252帧用于测试。每个帧的地面真实值包含36个手关节的3D位置。在[43,11,22]之前的工作之后，我们对14个手关节的子集进行了估计和评估。由于该数据集中的帧是包含人体和背景的原始深度图像，我们使用单个沙漏网络[18]来检测2D手关节位置，并使用相应的深度信息进行手部分割。由于分割图像中手臂的长度不同，我们使用随机手臂长度来增加训练数据。ICVL数据集[36]包含22059帧用于训练，1596帧用于测试。每个帧的地面真实值包含16个手关节的3D位置。我们使用与纽约大学数据集相同的方法进行手部分割。训练数据随机增加了各种手臂长度和伸展系数。MSRA数据集[35]包含九个主题，每个主题包含17个手势，每个手势包含大约500帧分割的手深度图像。每个帧的地面真实值包含21个手关节的3D位置。在实验中，我们对八名受试者进行了训练，并对剩下的一名进行了测试。对所有受试者重复九次。我们不在此数据集上执行任何数据扩充。

评价指标：

所有测试帧上每个关节的平均误差距离和所有测试帧上所有关节的总平均误差距离
最佳帧的比例

在这里插入图片描述
与纽约大学[43]（左）、ICVL[36]（中）和MSRA[35]（右）数据集的最新方法进行比较。图中显示了良好帧的比例和总体平均误差距离（括号中）。

与纽约大学[43]（左）、ICVL[36]（中）和MSRA[35]（右）数据集的最新方法进行比较。每个关节的平均误差距离和总体平均误差距离如图所示（R:根，T:尖）。

总结

在本文中，我们提出了一种新的方法，直接将手的三维点云作为网络输入，并在点云上输出热图和单位向量场，以反映每点的接近度和手关节的方向。我们使用加权融合从估计的热图和单位向量场推断三维手关节位置。与堆叠沙漏网络[18]类似，我们将堆叠网络体系结构应用于分层点网[27]，它允许在点云上重复自下而上和自上而下的推理，并能够进一步提高性能。我们提出的点到点回归方法也可以很容易地与直接回归方法相结合，以实现更稳健的性能。在三个具有挑战性的手姿势数据集上的实验结果表明，我们的方法在实时性上取得了优异的精度性能。

Chhote

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
论文阅读——Point-to-Point Regression PointNet for 3D Hand Pose Estimation

Point-to-Point Regression PointNet for 3D Hand Pose Estimation Point-to-Point在NUY，ICVL，MSRA等大数据集上的表现至今都十分优异，值得一看 与以往直接以2D深度图作为输入然后直接回归关节点的三维坐标方法不同，本文提出的Point-to-Point回归PointNet直接将三维点云作为输入并输出逐点估计(逐点估计可以定义为从点到手关节位置的偏移)贡献点：本文建议直接将3D点云作为网络输入，并
复制链接

扫一扫