Recovering Accurate 3D Human Pose in The Wild Using IMUs and a Moving Camera. ECCV2018 阅读理解

最新推荐文章于 2024-09-06 15:29:56 发布

为什么先生2012

最新推荐文章于 2024-09-06 15:29:56 发布

阅读量2.7k

点赞数 1

分类专栏： 08 3D人体检测重建文章标签： 3d pose PW3D 3DPW SMPL

本文链接：https://blog.csdn.net/zhang2012liang/article/details/121587176

版权

08 3D人体检测重建专栏收录该内容

9 篇文章 4 订阅

订阅专栏

本文提出一个构建3D数据集的方法，并开源了一个室外多人的3D数据集，即3DPW。

在这项工作中，我们提出了一种方法，将单个手持摄像机和一套附在肢体上的惯性测量单元(imu)结合起来，在野外估计准确的3D姿态, 这带来了许多新的挑战:移动的摄像机，航向漂移，混乱的背景，遮挡和视频中可见的许多人。

整个数据构建流程可以简述为3步：

第一步：基于第一帧，通过迭代最小化IMU输出的方向值和基于SMPL得到的方向值以及一些pose的先验约束，可以得到一个不错的SMPL pose作为初始值。

第二步：为每一个pose匹配到其对应的2d 坐标，涉及到匹配问题。

第三步：需要考虑整个视频序列以及IMU的航向漂移，通过pose可以获得SMPL输出的3D点，将其投影到图像，计算投影的2d和第二步得到的2d直接的误差，通过最小化这个误差，同时还需要最小化其他数据项，例如输出的相关方向与IMU的输出值之间的误差，关于pose的一些先验约束，例如多模态的高斯分布等。

背景知识：这里有两个背景知识，第一个就是我们所需要求解的pose和IMU读取的数值之间存在多个坐标系的转化，另外一个就是IMU受到磁场干扰会产生航向漂移。

第一个知识点：根据上图去找推到出SMPL的pose参数与IMU获取的相关数据之间的关系。即G_BS。

知识点2: IMU存在航向漂移问题，以前的处理方法是将其看作噪声或者忽略，因为往往在一个连续时间很长的情况下会放大这种问题，本文则将其建模为一个关于一个旋转角的函数。

细节概述：

先通过将SMPL拟合到3D扫描文件获取SMPL的形状参数，后期这个参数保持不变。

第一步：获取初始化pose

先处理视频的第一帧，假设已经知道了第一帧里面的相关目标人物的pose，可以获取SMPL 骨骼和IMU 传感器的之间关系R_BS，将IMU读出的数值通过R_BS 可以推出当前骨骼真实的旋转方向。同时我们根据当前pose也推出了一个骨骼的预测的旋转方向，这样通过最小化骨骼真实的旋转方向和骨骼的预测的旋转方向，迭代优化当前人物的pose，最终得到一个还算可以的pose，作为后面的初始化pose。
第二步：配准

首先通过人体2d pose检测器获得所有的人体2d关键点，然后将其配准到对应的3D pose，这里设计到一个多人匹配问题。不是重点

第三步：开始处理整个视频序列：类似SMPLly，最小化SMPL的3D投影的到的2d与第二步的2d关键点之间的最小值，同时还有多个数据项，例如继保持预测的数值要和IMU读出的真实数值保持尽可能小的误差等。

文章简述：

本文联合优化一个统计体模型的姿态，相机姿态和航向漂移使用一个连续优化框架.我们在TotalCapture数据集上验证了我们的方法，该数据集提供了与地面真实值同步的视频和IMU。我们获得了26mm的精度，这使得它足够精确，可以作为基于图像的三维姿态估计的基准。使用我们的方法，我们记录了在野外的3D姿势(3DPW)，这是一个新的数据集，包含了超过51000帧具有挑战性序列的准确3D姿势，包括在城市中行走、上楼梯、喝咖啡或乘坐公交车。我们将重建的三维姿态、视频、IMU和三维模型用于研究目的。

（IMU方便携带，但是准确性受到很多影响：初始姿态，航向漂移）基于imu的系统之所以有前途，是因为它们不受固定空间的约束，因为它们是由人佩戴的。然而，在实践中，准确性受到许多因素的限制。初始姿态的不精确性会导致传感器与骨骼的错位。此外，在连续作业过程中，imu会发生航向漂移，如下图所示。

这意味着，在一段时间后，每个IMU将变成不是相对于同一世界坐标系的测量。相反，每个传感器提供相对于独立坐标框架的读数，这些坐标框架慢慢地从世界框架中漂移出去。此外，由于位置漂移，无法准确地获得全局位置。此外，IMU系统不提供与图像数据同步和对齐的3D姿态。

因此，我们提出了一种新的方法，称为视频惯性姿态(Video Inertial Poser, VIP)，该方法通过在人体肢体上安装6 - 17个imu和一个手持移动手机摄像头，共同估计人在现场的姿势。使用imu可以减少任务的模糊性，但仍然存在许多挑战。首先，（对齐）视频中需要被检测到，并与IMU数据相关联，如图2所示。第二，由于航向漂移，imu不准确。第三，估计的三维姿态需要与移动摄像机的图像对齐。此外，我们在这个工作中处理的场景包括完整的遮挡，多个人，跟踪的人从摄像机视图和摄像机运动。为了解决这些问题，我们定义了一种新的基于图的关联方法，以及一种集成序列中所有帧测量值的连续位姿优化方案。为了处理噪声和不完整的数据，我们利用SMPL[14]，它包含人体测量和运动学约束。

具体来说，我们的方法有三个步骤:初始化、2d和3D关联和数据融合。在初始化过程中，我们通过将SMPL拟合到IMU方向来计算初始3D姿态。关联步骤则是通过求解一个二元二次优化问题，自动地将三维姿态与二维人体检测全序列关联起来。考虑到这些关联，在数据融合步骤中，我们定义了一个目标函数，并联合优化全序列的3D姿态、每个传感器的航向误差、相机的姿态和平移。具体地说，当(i)模型的方向和加速度接近IMU读数，(ii) SMPL 3D关节的投影接近图像中的2D CNN检测[4]时，目标被最小化。为了进一步提高结果，我们重复一次联合优化。

通过VIP，我们可以在具有挑战性的自然场景准确地估计3D人体姿势。为了验证VIP的准确性，我们使用了最近发布的3D数据集Total Capture[39]，因为它提供了与IMU数据同步的视频。VIP获得的平均3D位姿误差为26mm，这使其足够精确，可以用于基准方法处理野外数据。我们使用VIP创建了3D姿态在野外(3DPW):一个由手持视频组成的数据集，在自然视频中有真实的3D人类姿态和形状。

为了研究目的，我们公开了3DPW，包括60个视频序列(51000帧或1700秒的视频，用手机在30Hz拍摄)，IMU数据，3D扫描和18种服装变化的3D人物模型，以及所有序列中VIP的精确3D姿势重建结果。我们预计，该数据集将通过提供一个平台来定量评估和比较3D人体姿态估计方法，从而刺激新的研究。

与我们的方法更接近的是作品[2,11]，它使SMPL[14]适合2D检测。我们解决的优化问题，即使它集成了更多的传感器，也更加复杂。很少有方法能够解决多人三维姿态估计问题[31,20]。3DPW允许对所有这些方法的野外图像进行定量评估

【2】Keep it SMPL: Automatic estimation of 3D human pose and shape from a single image.

【11】Unite the people: Closing the loop between 3d and 2d human representations.

目前3DPW数据集已经公开，大家基本都是将他作为基准：

3DPW Real Virtual Humans

3DPW 数据集简介

数据集包含：

60视频序列。

2d pose 标注

3d pose 标注：用我们的方法获得三维姿态。我们的方法利用视频和IMU，姿势非常准确，尽管复杂的场景。

每一个序列中的每一帧提供了相机姿态参数

3D人体扫描和3D人体模型(可重塑和可重塑)。每个序列都包含相应的模型。

18个穿着不同服装的3D模特。

每个部分包含的内容可以阅读 readme.txt 了解：

3DPW数据集包含多个运动序列，这些运动序列被组织为两个文件夹：imageFiles和sequenceFiles。

文件夹imageFiles包含每个序列的RGB图像。

文件夹sequenceFiles以.pkl文件的形式提供同步运动数据和SMPL模型参数。对于每个序列，.pkl文件均包含具有以下字段的字典：

-sequence：包含序列名称的字符串

-beta：用于跟踪的每个参与者的SMPL形状参数（10x1 SMPL beta参数列表）

-pose：与图像数据对齐的每个演员的SMPL身体姿势（Nx72 SMPL 关节角度列表，N = 帧数量）

-trans：与图像数据对齐的每个演员的平移参数（Nx3 根节点平移列表）

-poses_60Hz：每个演员在60Hz时的SMPL身体姿势（Nx72 SMPL 关节角度列表，N =＃帧）

-trans_60Hz：每个演员在60Hz时的平移量（Nx3 根节点的平移量）

-betas_clothed：每个演员的SMPL形状参数（10x1 SMPL beta参数列表）

-v_template_clothed：

-gender：演员性别（字符串列表，“ m”或“ f”）

-texture_maps：每个演员的纹理贴图

-poses2D：每个演员以Coco格式进行2D关节检测（仅在至少正确检测到至少6个关节时提供）

-jointPositions：每个角色的3D关节位置（每个SMPL关节的Nx（24 * 3）XYZ坐标列表）

-img_frame_ids：下采样60 Hz 3D姿势的索引数组对应的图像帧ID

-cam_poses：每个图像帧的相机外部特性（Ix4x4数组，I帧乘以4x4原生刚体运动矩阵）

-campose_valid：布尔值索引数组，指示已将哪个相机姿态与图像对齐

-cam_intrinsics：相机内固有参数（K = [f_x 0 c_x; 0 f_y c_y; 0 0 1]）

每个序列都有一个或两个模型，分别对应于模型特定字段的列表大小（例如Beta，姿势，trans，v_template，gender，texture_maps，jointPositions，poses2D）。

SMPL姿态和平移频率为30 Hz。它们与依赖于图像的数据（例如2D姿势，相机姿势）对齐。另外，我们提供“ poses_60Hz”和“ trans_60Hz”，其对应于IMU的60Hz的记录频率。您可以使用'img_frame_ids'下采样并对齐60Hz 3D和图像相关数据，这已经完成了计算SMPL'pose'和'trans'变量的工作。

by 为什么先生2012

知识补充：

IMU全称Inertial Measurement Unit，惯性测量单元，主要用来检测和测量加速度与旋转运动的传感器。其原理是采用惯性定律实现的，这些传感器从超小型的的MEMS传感器，到测量精度非常高的激光陀螺，无论尺寸只有几个毫米的MEMS传感器，到直径几近半米的光纤器件采用的都是这一原理。惯性定律。常见的完整表述：任何物体都要保持匀速直线运动或静止状态，直到外力迫使它改变运动状态为止

航向漂移：磁干扰会使imu的方向测量变差，从而引入相对于G_GI的时变的旋转偏移量，也俗称航向误差或航向漂移。这个偏移主要是因为将原来的全局惯性坐标系F_I转移到I扰动惯性坐标系F_I’ ，更恼火的是每个传感器关于这个漂移还不一样。在以往的工作中，多数忽略了航向漂移或将其视为噪声，但我们明确地对其建模并将其恢复为优化的一部分。具体地说，我们将其建模为一个关于纵轴的单参数的旋转函数。