基于L0正则化的鲁棒非刚体运动跟踪与表面重构

基于L0正则化的鲁棒非刚体运动跟踪与表面重构

摘要

我们提出了一种新的动作跟踪方法,以强劲地重建从由一个消费者深度传感器捕获的单视图深度输入的非刚体几何体和动作。这一思想来自于对大多数非刚性运动中固有清晰的子空间的观察。为了充分利用这一特性,我们提出了一种新的具有迭代优化解算器的基于L0的动作正则化器,它可以隐式地限制仅在关节运动的关节处的局部变形,从而导致解空间和物理貌似真实的变形减少。将L0策略集成到现有的非刚体运动跟踪管道中,形成了能够自适应地停止跟踪误差传播的提出的L0-L2非刚体运动跟踪方法。复杂的闭塞的人体动作,面部和手部运动的广泛实验表明,我们的方法大大提高跟踪鲁棒性和表面重建精度。

1.介绍

在现实生活中获取变形物体的3D模型是有吸引力的,但在计算机视觉和图形方面仍然具有挑战性。一种方法是探索变形对象的内部结构,并使用基于骨架的策略来执行跟踪和重建,例如人体跟踪(10, 14),手部运动捕捉(17, 8)。然而,有大量的变形对象不能完全由骨架建模,例如,人们抓住非刚性变形枕头的活动(图6)。此外,跟踪性能对骨架嵌入和表面剥皮策略敏感,这通常需要手动操作来实现高质量的运动跟踪[10,11]。

非刚体变形[23,22,19]为动态对象建模提供了一个吸引人的解决方案,因为它不需要内置骨架。物体运动重建的非刚体变形的基本思想是在每个时间步长中变形模型顶点以适应观测值。然而,由于非刚体变形的参数空间比骨架空间大得多,非刚体变形通常采用局部优化,可用的非刚体运动跟踪方法很容易陷入局部极小值。此外,它遭受误差累积,并且通常在从由单个深度传感器获得的噪声和不完整数据中跟踪长运动序列时失败。使用非刚体运动跟踪技术(无嵌入骨架)对复杂人体和手部运动进行鲁棒地跟踪仍然是一个未解决的问题。

在本文中,我们观察到,大多数非刚体运动隐含地包含有关节的运动,在关节区域周围具有强的变形变化,而在其他区域保持不变。这种现象表明,不同区域应引入不同程度的光滑变形先验。当计算物体表面上的空间变形梯度时,只有一些关节区域具有非零梯度值,而其他表面区域保持零。图1(d)和(e)显示了两个重建结果的梯度的大小。

在此基础上,提出了一种新颖的稀疏的非刚体变形框架,来使模板模型变形来重建非刚体几何图形和(通过基于L0的运动约束输入的单相机深度视图得到的)运动。与广泛使用的L2规范相比,L2规范为相邻顶点之间的运动差异制定了平滑约束,L0规范只在几个重要变形即关节的运动限制了本地非刚性的变形,这大大减小了解决空间,产生更多身体上的貌似真实的,因此是一种更加健壮的和高质量的变形。

然而,对于暂时连续的框架来说,关节运动的变形是很小的,以至于提出的L0正则化器无法将其与非刚体的人类表面运动区分开来。为了达到这个目的,我们积累了时间框架的运动,直到运动的变化足够大,可以进行关节运动的检测,并提出一种结合L0-L2的跟踪策略,在少量的锚针上进行L0优化,同时保持其他帧被L2优化。为了保证时间的一致性,我们最终以双向的方式对锚框架之间的非刚性跟踪和重建结果进行了改进。

我们通过一个消费者深度传感器捕捉到的单眼深度输入,提出了一种复杂的非刚体运动,如人体运行、面部表情、手部运动和与物体相互作用的身体运动(图1中显示的一个例子)。与最先进的非刚体变形方法相比,我们的方法在跟踪长序列(高达800帧)时具有更强的鲁棒性。此外,该技术不依赖骨架嵌入和去掉重量计算,从而大大降低了运动重建的工作量。我们工作的数据和源代码在项目网站上公开。

2.相关工作

非刚体运动重构技术今年来得到了广泛的应用。例如,在电影和游戏产业中,运动标记系统被成功地应用于捕捉人体或面部的非刚性运动。尽管如此,这些系统还是相当昂贵的,需要演员们在身体或面部粘贴一套大型的光学信标。为了克服这一缺点,学术界对带有视频输入的无标记解决方案进行了广泛的研究。关于这个话题的早期研究在16和15中得到了很好的调查。

对于多视图视频输入,移动物体的形状可以通过轮廓形状或立体匹配的方法直接重建。在此之后,像4这样的技术可以通过一个非连续的注册方案来计算所有帧之间的通信。此外,还可以使用一个预定义的模板模型来重建一个物体的运动,使之变形以适应多视图视频输入。除此之外,还可以将骨架进一步嵌入到模板中,以更好地捕捉移动物体的运动。除了彩色相机,在最近几年还提出了有多个深度相机的系统。在额外的深度信息的帮助下,复杂的运动有望得到更好的重建。尽管上述解决方案在没有运动标记的情况下重建了关节的和/或非刚体运动,但复杂的多视图系统仍然不容易构建,不能应用于一般环境,这严格限制了它们的应用。

单眼颜色或深度相机是捕捉移动物体的最便利的设备。对于运动体的运动,朱等人通过将人类行为建模为子空间的结合,重建了三维身体骨骼。Baak等人和Ye等人在一个预先录制的数据库中发现了一个类似的姿势,以重建一个视频帧的人的姿势。魏等人提出了“姿势估计问题”作为一个后验框架,以实现更健壮的骨架估计。然而,这些技术仅能估计运动物体的运动,完整的表面非刚性变形不能重构。

最近,吴等人通过探索BRDF信息和场景照明,用立体输入重建了非刚体运动。叶和杨提出了一个以指数为基础的参数化来估计三维的姿势和形状。然而,这些技术利用骨架来约束运动空间,这需要骨架嵌入和剥皮重量计算。这两个步骤对于最终结果的质量是至关重要的,并且很难通过自动方法精确地实现。此外,骨架限制了这项技术应用于关节对象而不是一般对象。

另一方面,纯非刚体注册技术是避免使用骨架的另一种可供选择的解决方案。廖等人通过在不同的时间实例中分割后部分表面来实现这一目标,从而限制了连续和可预测的运动。Popa等人在此之前,通过一个渐进的改变实现了时空重构,这使得它难以处理快速的运动和长序列。李等人利用基于icp定义的通信的模板跟踪来重建复杂的运动,实现了最先进的重建。然而,由于在其变形模型中只有平滑的运动,强烈的铰接运动和较大的遮挡是很难处理的,特别是对于由消费者的Kinect摄像机捕捉到的噪声深度输入。本文提出了一种结合基于骨架的基于骨架的方法和非刚性的基于注册的方法的优点,并从单视图深度输入中演示了鲁棒性和精确的曲面运动重构。

3.综述

这一工作的目的是重建从单视图深度序列中变形物体的非刚性运动。与现有的重建关节的运动的解决方案不同,我们的方法不需要嵌入一个预定义的框架,同时还能有效地输出动态对象的3D变形网格序列。除了输入深度序列之外,还需要三维网格模板(图3(a)),可以使用一个深度传感器进行深度融合。通过这种方式,整个管道只依赖于一个现成的深度照相机。在数据记录之后,使用基于采样的全局优化方法自动执行模板到捕获序列的初始帧的严格和粗略的对齐。

然后,如图2所示,运动跟踪和表面重建管道将完全自动处理。总的来说,它使用的是一种向后倒退的跟踪策略。传统的非刚性变形首先是逐帧执行的(图2中的第1步)。重建的运动被累积,直到在一个被称为锚架的框架中检测到突出的铰接运动。在此基础上,利用前锚框架的参考(图2中的步骤2),触发了基于L0的运动正则化,从而使该锚框架中的运动正规化和刷新。这样的提神剂有效地阻止了累积的非刚性变形错误,同时隐式地改进了底层的铰接运动。摘要进一步介绍了一种基于L2的非刚性变形,对该锚框架上的非刚性形状进行了改进,以近似输入深度(图2中的步骤3)。为了将点心传播到前一帧,非刚性的变形是向后执行的(图2中的第4步),从最新的锚架到前一个锚架。中间一帧的最终结果是对前向和后向跟踪的重建结果的加权混合(图2中的步骤5),然后是一个表面细节的细化(见图3(e))。这个策略从一个锚架到下一个被探测到的锚定帧,直到序列的结束(图2中的步骤6到11)。

4.结合的L0-L2跟踪

给定捕获的深度序列D1,D2,……Dn,提出的L0-L2跟踪策略选择了基于L2的正则化器和基于L0的正则化器在每一帧Dt中选择。在此基础上,我们将首先概述可用的基于L2的非刚性注册,然后介绍我们提出的基于L0的运动正则化,然后是我们的方案在这两个正则化器和总体跟踪策略之间进行选择。L0正则化器不能应用于所有帧的原因是在第2节和第4节中解释的。

4.1基于L2的非刚体注册

给定一个深度框架Dt(t=1,。n),作为一个时间跟踪策略,我们有一个网格Mt-1,它与当前的深度Dt是一致的。基于L2的非刚性注册,然后将Mt 1作为初始化,通过非刚性的变形使其进一步适应Dt。为了简洁,我们忽略了以下派生的时间戳t。按照最先进的方法,网格M的变形由网格上的稀疏节点xi的仿射变换{Ai,ti}表示(图3(b))。对于一个特定的网格顶点vj,它在非刚性变形后的新位置被表述为:

其中,w(vj,xi)测量节点xi对顶点vj的影响。有关从网格中提取xi的详细信息,请参阅[12],并计算所有网格顶点的w。考虑到变形模型,{Ai,ti}的估计是通过最小化以下能量来实现的:

这就迫使顶点vj移动到对应的深度点cj,特别是沿着cj的正方向。C包括所有在深度d中有对应关系的顶点,它限制仿射变换尽可能的严格,这是由以下公式组成的:

其中ai1,ai2和ai3是Ai的列向量。Esmo定义了L2正则化器,它限制了空间域上一致的运动差异,也就是说,节点的仿射变换应该尽可能类似于它的相邻节点:

节点的邻域显示为图3(b)的边,并由12中的方法定义。在迭代最接近的点(ICP)框架中执行了Etol的最小化,其中C被最近的点搜索更新,并且在迭代过程中也更新了参数。我们完全按照12来设置我们的实现中的参数。详情请参阅他们的论文。

4.2基于L0的运动正则化

如第1节所述,从一个消费者深度传感器捕捉到的单视图低质量深度输入,纯非刚性变形不能有力、准确地再现像人体或人类手这样的物体,其运动可能有很强的遮挡,从而导致不准确的点对深度的对应。但另一方面,这种物体主要表现为非刚性运动。为了达到良好的跟踪效果,以前的工作采用了骨架嵌入来明确地利用先前的铰接运动,严格限制可能的运动变化只发生在预先定义的骨架关节上,并防止其他区域的运动变化。这种骨架嵌入类似于在物体上以预先定义的分布来限制空间运动变化的L0规范。在此基础上,提出了一种基于L0的运动正则化方法,对现有的非刚性表面变形框架进行了隐式利用,在不需要骨架嵌入的前提下,隐式地利用了铰接运动。

在这里应该注意的是,建议的L0正则化器不能应用于每个输入帧。直观地说,虽然两个时间连续的框架之间的形变变化包含了铰接运动和非刚性运动,但铰接运动的大小太小,不明确,不能与非刚性运动区分开来。如果L0正则化器应用于这些微小的运动,那么铰接式的运动也将被L0规则化的非刚性运动所修剪,这将导致跟踪失败。因此,我们只在一些锚架上应用L0正则化器,并使用前锚框架作为参考,跟踪锚框架的运动运动和形状。

具体地说,考虑到初始顶点位置,在第4.1节中由L2非刚性跟踪获得的新锚框架的vj,,我们通过最小化以下能量函数来估计精炼的隐式铰接转换{A’i,t’i}:

在这里,E’data限制了改进的转换应该通过L2优化将目标对象变成类似的姿势,因此结果仍然适合输入深度:

其中 是由精炼转换定义的顶点位置:

和等式4中显示的有同样的公式:

E’reg在优化之前引入了铰接式运动。它限制了在节点上定义的运动在对象上不会平稳地改变,但只在相邻节点的稀疏对之间进行更改。这是一个合理的假设,因为同一主体部分的节点大部分共享相同的运动转换。因此,我们将这个术语定义为L0正则化器:

其中 代表了运动差异的大小,E’reg测量了所有相邻节点之间的运动差异的L0规范。在我们的实现过程中,α’rigid调到1000,α’reg调到1.

Eqn.6很难进行优化,因为Ereg术语带来了一个离散的计数度量。在28中描述的解算器的启发下,我们将优化分解为两个子问题,方法是将辅助变量引入到能量函数中。请注意,最初的L0优化是计算性的,而我们的解决方案只是一个近似值。然而,该方法有效地得到了一个足够好的解决方案。

我们引入了辅助变量kij,并将优化问题重新定义为:

其中kij是Dxij的一个近似值。为了解决这个问题,我们可以固定{A’i,t’i}来解决{kij},固定{kij}来解决{A’i,t’i}。如果{A’i,t’i}被固定了,最小化被定制为:

因为Dxij是预先设定好的,等式12有一个闭合的形式解:

如果kij是固定的,等式11有以下求解:

Eqn.14制定一个纯L2的优化问题。我们用高斯-牛顿法求解。

在使用这种迭代方法解决Eqn.11时,需要在迭代中更改参数α和β。在我们所有的实验中,我们把α设为0.02,在第一次迭代中把β设为1,每次迭代后乘以2,直到β超过106。图4展示了在L0迭代更新期间的顶点运动幅度。与前锚框架的姿势相比,我们看到两条腿之间的胯部有明显的运动。相应地,该算法在迭代开始时被算法成功地检测为一个关节区域。随着迭代的进行,更清晰的区域被隐式地检测到,如图4(b-e)所示。

同样重要的是要注意,在L0最小化之后,铰接的运动被很好地重构,而其他非刚性运动被移除。为了重构这些非刚性运动,我们在锚框架上再次运行基于L2的非刚性注册,使用从L0作为初始值的精炼结果作为目标。注意,新的初始精炼结果消除了非刚性跟踪的累积误差,从而取得了较好的效果。

图5显示了我们提出的L0正则化的有效性的一些结果。相比与传统的非刚性的登记(第一行),顺利融合在人体关节的相对变形,我们基于L0规范(第二行)有效地集中这些运动关节,在实质上消除了变形工件的联合区域(图5(a,b,d))和刚体部件(图五(c))。

4.3锚定帧检测

如第4.2节所述,由于两个相邻帧之间的铰接动作通常比较小,基于修剪的L0正则化可能会错误地删除铰接的运动,从而导致L0优化的无效。我们克服这个问题的关键想法是,在前一个锚定框架之后,积累每一帧的动作:

其中 表示节点i在时间t上的电流和累积运动。在积累过程中,如果物体在执行某种铰接运动,那么关节运动关节周围的空间运动变化将变得越来越大,而由其他非刚性变形引起的空间运动变化保持在同一水平。通过分析空间运动变化的分布,我们发现了一个有足够大的铰接运动的锚架。然后触发L0正则化,并通过参考前一个锚框架,在检测到的锚框架上操作第2节的修剪算法。

在实践中,我们计算了所有 的方差,其中Dxij是由累积的运动 计算出来的。如果在一个特定的坐标系中,方差大于θ,我们将这个坐标系设为一个锚框架,其中L0的运动正则化将被执行。在[0.01,0.03]中θ的值通常会给出合理的结果,而较小或更大的值可能会带来工件。在我们所有的实验中,我们设θ为0.02。我们的补充材料显示了在几个动作序列中所有被检测到的锚定框架。

4.4双向跟踪和表面细化

在对新发现的锚框架进行精炼后,我们需要更新前锚框架和当前锚框架之间的帧。我们使用基于L2的非刚性变形方法对当前锚框架进行逆向跟踪。对于那些接近当前锚框架的框架,反向跟踪的结果应该更加准确,而对于那些接近前锚帧的帧,原始的转发跟踪结果应该更加准确。因此,我们使用一个依赖于位置的线性权重来混合每个框架的两个结果(参见图2中的步骤4和5)。请注意,当双向结果具有较大的形状差异时,直接混合顶点位置可能会导致工件。在我们的实现中,我们将仿射转换混合在每个节点上,然后应用动作转换来获得最终结果。

在混合了中间帧之后,我们进一步重建被捕获对象的表面细节。为了实现这一点,我们首先对当前的网格模型进行细分,然后利用12中的方法来合成捕获深度的表面细节。在此之后,我们将当前锚框架的结果作为初始化来执行以下帧的L2非刚性跟踪,并检测下一个锚框架。这样的跟踪周期一直持续到序列的末尾。

5.实验

我们记录了10个测试序列,其中包含超过6000个帧,使用一个Kinect摄像头或一个英特尔的IVCam相机。Kinect摄像头用于捕捉人体的全身运动,而IVCam相机则用于捕捉手部动作和面部表情。在数据采集过程中,相机保持不变。表1显示了我们捕获的数据的详细信息。实验序列包括快速的人类运动动作。“滑动”和“伙伴”,多种物体,如“木偶”“枕头1”“枕头2”“脸”和“手”,以及带有严重遮挡的动作,如“枕头2”和“手”。此外,我们还使用无噪声的合成数据进行定量评价。

在数据采集后,我们的运动重建方法是穿孔线。模板建模步骤重新构建了一个大约有9000个顶点的网格模型。在大致将模板与第一个深度框架对齐之后,跟踪系统以每分钟3帧的速度运行。对于每一帧,大约18 s是由双向非刚性注册所采用的。基于L0的细化需要一个框架的60 s,这对总时间没有太大的贡献,因为它只在少量的锚帧上执行。请注意,我们在PC上实现了C++的方法,它有3。20 GHz四核CPU和16 GB内存。

5.1重建结果

    我们的技术能够重建不同物体的各种运动,包括人体运动、手部运动以及它们与物体的相互作用。图6显示了一些结果,其中第一列显示了“滑动”和“舞蹈”序列中纯体运动的结果,表明我们的技术能够重建快速运动和处理由铰接运动引起的自动运动。第二列显示了“Pillow1”和“Pillow2”序列的结果,其中包含了人类与对象的交互作用,即参与者在操纵一个非刚性的枕头。第三栏用松散的布和互动玩具的动作来演示人类的运动。通过对图8中人脸和手运动的成功跟踪,它证明了我们的方法支持具有不同形状和拓扑的各种对象类型,而不考虑铰接结构的存在与否。我们的方法也很好地利用了表面的细节重构方法,可以看到在“女孩”模型上获得的复杂几何图形。对于更多的顺序重建,显示我们的时间一致性,请参考我们的补充视频。

5.2评估和比较

我们用Vicon运动捕捉系统定量评估我们的方法,并将我们的结果与[12]和[34]进行比较。首先,我们使用红外闪光同步Vicon和Kinect,并在模板上注册Vicon系统的标记和地标。然后,对于每个帧,我们计算标记和相应顶点之间的平均L2范数误差。所有这三种方法的数值误差曲线如图7所示。平均数值时间范围(第400帧之后),三种方法的平均误差分别为3.93cm,7.37cm和17.24cm。

我们使用不同质量的初始对象模板评估我们的方法。我们将原始模型下采样到 75%和50%并重建粗化模板。我们在“滑动”序列上使用这些模板测试我们的方法。重建结果的一帧如图9所示。对于75%和50%的重建模板,只有合成的细节看起来有点不同。在实践中,我们的方法可以容忍大范围的平滑度。因此,我们提出的方法不需要高质量的模板,这使得它在实际情况下更有用。

在图10中,我们将我们的方法与[12]和[34]的实际捕获数据进行了比较。从比较中,我们看到我们的方法在左脚上优于[12],而[34]无法跟踪由序列中的快速运动引起的这种姿势。在图8中,我们将我们的方法与[12]在面部,身体和手部序列上进行了比较。由于面部序列中没有强烈的关节运动,我们的方法类似于[12]。然而,在身体和手的关节序列上,我们的方法可以防止出现在[12]结果中的跟踪失败和局部错位。补充视频中显示了对运动序列的更多比较。

    我们将L1稀疏性约束与提出的L0方法进行比较。与公式6类似,新的正则化器是 。我们使用primaldual内点法解决它。比较结果如图11所示。我们的L0求解器可以更准确地重建运动和关节并避免伪影。

5.3。其他类型的深度输入

除了由单个消费者深度传感器捕获的数据之外,我们的技术还适用于其他深度采集技术,例如结构光[12]和双目相机[27]。这提供了广泛的实用性,并使更具吸引力的应用程序。结果显示在补充视频中。

5.4。限制

所提出的L0-L2非刚性跟踪方法仍然受限于跟踪极快的运动。例如,补充视频显示了跟踪无法赶上角色的上移腿的失败情况。这主要是因为在处理快速运动时顶点到点匹配的易碎性。我们的方法也无法进行严重或长期闭塞的运动。但是,它自然支持多个视图深度输入, 这将有效缓解遮挡挑战。

6.讨论

 我们提出了一种仅使用单个消费者深度相机的新型非刚性运动跟踪方法。我们的方法在稳健性和准确性方面优于最先进的方法。我们的技术的关键贡献是结合L0-L2跟踪策略,该策略利用关节运动的固有属性来约束解空间。根据实验 结果,我们的方法胜过两个先前的状态 非刚性跟踪算法,可以使用单个深度传感器稳健地捕获全身人体运动,而无需手动嵌入骨架。

   我们的L0正则化是在非刚性配准的结果上进行的,但与获得结果的算法无关,这意味 着它可以灵活地应用于其他非刚性配准技术以获得更好的重建。

致谢

国家重点基础探索国家重点基础,探索科学仪器No.2013YQ140517,863计划(No. 2013AA01A604),北京航空大学虚拟现实技术与系统国家重点实验室开放资助项目(批准号:BUAA-VR) -14KF-08)和NSFC(No.61120106003,No。61272235,

美国专利号91315302和美国专利号61522111)。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值