PIFu笔记

PIFu: Pixel-Aligned Implicit Function for High-Resolution Clothed Human Digitization

image-20211105180946145
像素对齐隐函数(PIFU),它可以从一幅输入图像(顶行)恢复出高分辨率的人体3D纹理表面。我们的方法可以将服装中错综复杂的变化数字化,比如褶皱的裙子和高跟鞋,包括复杂的发型。形状和纹理可以完全恢复,包括主体背部等基本看不见的区域。PIFU也可以自然地扩展到多视图输入图像(底行)。

1.摘要:我们介绍了像素对齐隐函数(PIFU),这是一种将2D图像的像素与其对应的3D对象的全局上下文局部对齐的隐式表示。
利用PIFU,我们提出了一种端到端的深度学习方法,用于数字化高细节的衣着人体,该方法可以从一幅图像中推断出3D表面和纹理,也可以根据需要从多幅输入图像中推断出3D表面和纹理。高度复杂的形状,如发型、服装,以及它们的变化和变形,都可以以统一的方式数字化。与用于3D深度学习的现有表示相比,PIFU产生高分辨率的表面,包括基本看不见的区域,如人的背部。具体地说,它与体素表示不同,内存效率高,可以处理任意拓扑,所得表面在空间上与所述输入图像对齐。此外,虽然以前的技术被设计为处理单个图像或多个视图,但是PIFU可以自然地扩展到任意数量的视图。我们从DeepFashion数据集中展示了对真实世界图像的高分辨率和鲁棒重建,其中包含各种具有挑战性的服装类型。我们的方法在公共基准上达到了最先进的性能,并且超过了之前从单个图像进行衣着人体数字化的工作。

**2.内容:**在身临其境的技术和传感器密集的自主系统日益盛行的时代,我们大规模创建虚拟3D内容的能力与我们数字化和理解野外3D对象的能力是齐头并进的。如果以3D形式数字化整个对象就像拍摄一张照片一样简单,那么就不需要复杂的3D扫描设备、多视角立体算法或繁琐的捕获程序,因为传感器需要四处移动。
对于某些特定领域的对象,例如人脸、人体或已知的人造对象,借助参数模型、数据驱动技术或深度神经网络,已经可以从图像中推断出相对精确的3D表面。最近的3D深度学习进展表明,可以从很少的图像中推断出大致的形状,有时甚至可以从一个输入中推断出大致的形状。然而,由于无效的模型表示,结果的分辨率和准确性通常是有限的,即使对于领域特定的建模任务也是如此。
针对从一幅或多幅输入图像中推断穿着三维人体纹理表面的难题,我们提出了一种新的三维深度学习的像素对齐隐函数(pixel-aligned implicit function,PIFU)表示方法。而用于2D图像处理的最成功的深度学习方法(例如,语义分割[51]、2D联合检测[57]等)。利用“完全卷积”的网络结构来保持图像和输出之间的空间对齐,这在3D领域尤其具有挑战性。虽然体素表示[59]可以以完全卷积的方式应用,但是表示的存储器密集型特性固有地限制了其产生精细的详细表面的能力。基于全局表示[19,30,1]的推理技术具有更高的内存效率,但不能保证输入图像的细节被保留。类似地,基于隐函数[11,44,38]的方法依赖于图像的全局上下文来推断整体形状,这可能与输入图像不精确对齐。另一方面,PIFu以完全卷积的方式将像素级别的单个局部特征与整个对象的全局上下文对齐,并且不像在基于体素的表示中那样需要很高的内存使用量。这对于衣着对象的3D重建特别相关,其形状可以是任意拓扑、高度变形和高度细节。虽然[26]也利用了局部特征,但由于缺乏3D感知的特征融合机制,他们的方法无法从单一视图推理3D形状。在这项工作中,我们展示了局部特征和3D感知的隐式曲面表示的结合会产生很大的不同,即使从单个视图也可以进行非常详细的重建。

具体地说,我们训练编码器来学习图像的每个像素的单独特征向量,该特征向量考虑了相对于其位置的全局上下文。给定每个像素的特征向量和沿着从该像素传出的相机光线的指定z深度,我们学习了一个隐式函数,该函数可以分类与该z深度相对应的3D点是在表面内部还是外部。特别地,我们的特征向量在空间上将全局3D表面形状与像素对齐,这使得我们可以保留输入图像中存在的局部细节,同时推断出看不见的区域中可能存在的细节。
我们的端到端和统一的数字化方法可以直接预测一个发型复杂、穿着任意服装的人的高分辨率3D形状。尽管有大量的不可见区域,特别是对于单视图输入,我们的方法可以生成一个完整的模型,类似于从多视图立体摄影测量或其他3D扫描技术获得的模型。如图1所示,我们的算法可以处理各种复杂的衣服,如裙子、围巾,甚至高跟鞋,同时捕捉高频细节,如在像素级别与输入图像匹配的皱纹。
通过简单地采用隐式函数来回归沿射线的每个查询点的RGB值,PIFU可以自然地扩展以推断每个顶点的颜色。因此,我们的数字化框架还可以生成表面的完整纹理,同时预测不可见区域中看似合理的外观细节。通过附加的多视角立体约束,PIFU还可以自然地扩展以处理多个输入图像,这对于实际的人类捕捉设置来说是经常需要的。由于已经可以从单个输入图像生成完整的纹理网格,因此添加更多视图只会通过提供不可见区域的附加信息来进一步改进我们的结果。
我们在一系列具有挑战性的现实世界和不受约束的衣着对象图像上展示了我们的方法的有效性和准确性。我们还首次展示了从视频序列重建的动态衣着人体的单目和纹理3D重建的高分辨率示例。我们使用高端摄影测量获得的地面真实三维扫描数据集对我们的方法进行了全面评估。
我们将我们的方法与以前的工作进行了比较,并在一个用于数字化衣着人类的公共基准上展示了最先进的性能。

单视图三维人体数字化。由于问题的模糊性,单视图数字化技术需要很强的先验知识。因此,人体和形状的参数模型[4,35]被广泛用于从输入图像数字化人体。轮廓和其他类型的手动注释[20,72]通常用于初始化统计身体模型与图像的拟合。Bogo et al.。[8]提出了一种用于无约束输入数据的全自动管道。最近的方法涉及深度神经网络,以提高高挑战性图像的姿态和形状参数估计的鲁棒性[30,46]。将零件分割作为输入的方法[33,42]可以产生更精确的配件。尽管参数模型能够捕捉人体尺寸和运动,但它们只能生成裸体人体。衣服、头发和其他配件的3D曲面将被完全忽略。对于紧身衣物,有时会使用每个顶点的置换向量来建模某些级别的衣物,如[2,67,1]所示。然而,这些技术不适用于更复杂的拓扑,如连衣裙、裙子和长发。为了解决这个问题,像BodyNet[59]这样的无模板方法学会了使用深度神经网络直接生成人的体素表示。由于体素表示对内存的要求很高,输出中经常缺少精细的细节。最近,[39]通过从单一图像合成新的轮廓视图,引入了一种多视图推理方法。虽然多视图轮廓的内存效率更高,但凹面区域很难推断,而且生成的视图也很一致。
因此,细微尺度的细节不能可靠地生成。相比之下,PIFU节省内存,能够捕捉图像中存在的精细细节,以及预测每个顶点的颜色。

多视图三维人体数字化。多视角采集方法旨在生成一个完整的人模型并简化重建问题,但通常仅限于工作室设置和校准的传感器。早期的尝试基于视觉外壳[37,61,15,14],它使用来自多个视图的轮廓来划分捕获体积的可见区域。当使用大量摄像机时,可以获得合理的重建效果,但凹陷的处理本身就具有挑战性。可以使用多视点立体约束[55、75、65、16]或使用受控照明(例如多视点光度立体技术)来获得更精确的几何图形[62、68]。
有几种方法使用参数化人体模型来进一步指导数字化过程[54,17,5,25,3,1]。动作提示的使用也被引入作为额外的先例[47,70]。虽然多视图捕获技术显然优于单视图捕获技术,但它们的灵活性和可部署性明显较差。
中间层解决方案包括使用深度学习框架从非常稀疏的视图生成合理的3D表面。[12]训练3D卷积LSTM以预测来自任意视图的对象的3D体素表示。[32]使用可微的非投影操作组合来自任意视图的信息。[28]也使用类似的方法,但至少需要两个视图。所有这些技术都依赖于体素的使用,体素是内存密集型的,会阻止捕捉高频细节。
[26,18]介绍了一种基于体积占有场的深度学习方法,该方法可以使用稀疏视点作为输入来捕捉动态服装人体行为。这些方法至少需要三个视图才能产生合理的输出。

纹理推断。从单个图像重建3D模型时,可以很容易地从输入中采样纹理。但是,为了获得完整的纹理,需要推断遮挡区域中的外观。与3D纹理推断问题相关的是从单个图像[73,43]或多个图像[56]预测新视图的视图合成方法。在服装人体纹理网格推理的背景下,[39]提出了一种从正面预测背面的视图合成技术。然后使用前视图和后视图对最终3D网格进行纹理处理,但是不能处理自遮挡区域和侧视图。类似于图像修复问题[45],[40]修复从检测到的表面点的输出采样的UV图像,并且[58,22]推断每个体素的颜色,但是输出分辨率非常有限。[31]直接预测UV参数化上的RGB值,但其技术只能处理具有已知拓扑的形状,因此不适用于服装推断。我们提出的方法可以端到端的方式预测每个顶点的颜色,并且可以处理任意拓扑的曲面。

在给定单视图或多视图图像的情况下,我们的目标是在保留图像中存在的细节的同时,重建穿着衣服的人的衬线3D几何和纹理。为此,我们引入了像素对齐隐函数(PIFU),它是一种存储效率高、空间对齐的3D曲面表示方法。隐函数将曲面定义为函数 f 的水平集,例如f(X)=0。[50] 这导致了表面的存储器高效表示,其中嵌入表面的空间不需要被显式存储。
所提出的像素对齐隐函数由一个完全卷积图像编码器 g 和一个由多层感知器(MLPS)表示的连续隐函数 f 组成,其中曲面被定义为

f ( F ( x ) , z ( X ) ) = s : s ∈ R f(F(x), z(X)) = s : s ∈ R f(F(x),z(X))=s:sR
其中,对于一个三维点X,**x=π(X)**是它的2D投影,z(X)是相机坐标空间中的深度值,F(X)=g(I(X)) 是x处的图像特征。我们假设是弱透视相机,但是扩展到透视相机是很简单的。注意,我们使用双线性采样来获得像素对齐特征F(X),因为X的2D投影是在连续空间而不是离散空间(即像素)中定义的。
关键的观察结果是,我们在3D空间中学习具有像素对齐的图像特征而不是全局特征的隐式函数,这使得学习的函数能够保留图像中存在的局部细节。PIFU的连续特性允许我们以高效内存的方式生成具有任意拓扑的详细几何图形。此外,PIFU可以作为一个通用框架,可以扩展到各种共域,如RGB颜色。

image-20211105192613130我们的着衣人体数字化管道概述: 给定一个输入图像,像素对齐的隐函数(PIFu)可以预测着衣人体内外的连续概率场。类似地,用于纹理推断(Tex-PIFu)的 PIFu推导出具有任意拓扑结构的表面几何的给定3D 位置的 RGB值。

数字化管道。图2展示了我们的框架的概述。在给定输入图像的情况下,用于表面重建的PIFU预测衣着人体连续的内外概率场,其中等值面可以很容易地提取(SEC。3.1)。同样,用于纹理推理的PIFu(TeX-PIFu)在曲面几何体的3D位置输出RGB值,从而能够在自聚焦曲面区域和任意拓扑形状中进行纹理推理(SEC。3.2)。此外,我们还证明了所提出的方法可以自然地处理单视图和多视图输入,这使得我们能够在更多视图可用时产生更高的保真度结果(SEC。3.3)。

对于表重建,我们将地面真实表面表示为连续3D占用字段的0.5级别集:
image-20211105181113349

**解读:**人体 mesh 作为拓扑结构复杂的非刚体,其表面难以用一个函数进行表达,我们只知道一些离散的观测点、以及这些点属于人体 mesh 内部还是外部,这样我们就可以通过一个连续 3D 占用场的 0.5 水平集来表示,当 fv*(X)>0.5时,表示该 3D 点在人体 mesh 内部, fv*(X)<0.5时,在外部,且值越接近 1 or 0 表示在内部 or 外部的概率越大,这样转换为概率问题也方便将网络 Sigmoid 的输出作为 Pixel-Aligned Implicit Function 的输出。
我们的目的是为了得到该隐式函数 fv, 使得函数能够尽量拟合 Ground Truth 函数 fv*(X).

我们通过最小化均方误差的平均值来训练像素对齐隐式函数(PIFu)FV:
image-20211105181133579

其中X i∈R 3,F V(x)=g(I(x)) 是图像编码器 g 在 x=π(X) 时的图像特征,n是采样点的数量。给定一对输入图像和与输入图像空间对准的对应3D网格,通过最小化公式3 来联合更新图像编码器 g和 PIFu Fv 的参数。如Bansal等人所述[6] 演示对于语义分割,与使用所有像素训练相比,使用像素子集训练图像编码器不会损害收敛。在推理过程中,我们对3D空间上的概率场进行密集采样,并使用Marching Cube算法提取阈值为0.5的概率场等值面[36]。这种隐式曲面表示适用于具有任意拓扑的细节对象。除了PIFU的表现力和记忆效率外,我们还开发了一种空间采样策略,这是实现高保真推理的关键。

空间采样。训练数据的解析在实现隐含函数的表现力和准确性方面起着核心作用。与基于体素的方法不同,我们的方法不需要对地面真实3D网格进行离散化。取而代之的是,我们可以使用一种高效的光线跟踪算法从原始分辨率的地面真实网格中直接动态采样3D点[63]。请注意,此操作需要water-tight(严密的网格,网格处处封闭)。在none-water-tight网格的情况下,可以使用现成的解决方案来使网格 water-tight[7]。此外,我们还观察到采样策略在很大程度上影响最终的重建质量。如果对3D空间中的点进行统一采样,大多数点都远离等值面,这会使网络不必要地偏向外部预测。另一方面,仅在等值面周围采样可能会导致过度拟合。
因此,我们提出了基于曲面几何的均匀采样和自适应采样相结合的方法。我们首先对曲面几何体上的点进行随机采样,并为x、y和z轴添加具有正态分布N(在我们的实验中为0,σ)(σ=5.0 cm)的偏移量,以扰乱它们在曲面周围的位置。我们将这些样本与包围盒内的均匀采样点按16:1的比例组合,并在补充材料中对我们的采样策略进行了ablation study ( 烧蚀研究,为了研究模型中所提出的一些结构是否有效而设计的实验 )。image-20211108212333584

虽然纹理推理通常是在曲面的2D参数化[31,21]或在视图空间[39]上执行的,但是PIFU使我们能够通过在公式中定义s来直接预测曲面几何图形上的RGB颜色。1 作为RGB矢量场,而不是标量场。这支持具有任意拓扑和自遮挡的形状纹理。然而,将PIFU扩展到颜色预测并不是一项简单的任务,因为RGB颜色仅在表面上定义,而3D占有率字段是在整个3D空间上定义的。在这里,我们重点介绍了PIFU在训练过程和网络结构方面的改进。

给定曲面X∈Ω上的采样3D点,纹理推断的目标函数是采样颜色的L1误差的平均值,如下所示:
image-20211105191303750
其中 C(Xi) 是曲面点Xi∈Ω上的地面真实RGB值,n是采样点的数量。我们发现,用上述损失函数幼稚地训练FC会严重地导致过度拟合。问题是,FC不仅需要学习物体表面的RGB颜色,还需要学习物体的3D表面,以便FC能够在推理过程中推断出不同姿态和形状的不可见表面的纹理,这是一个巨大的挑战。我们通过以下修改来解决此问题。首先,我们使用为表面重建FV学习的图像特征来调节图像编码器以进行纹理推理。
这样,即使看不见的对象具有不同的形状、姿势或拓扑,图像编码器也可以专注于给定几何体的颜色推断。此外,我们还向沿曲面法线N的曲面点引入了偏移 ∼N(0,d),这样不仅可以在精确的曲面上定义颜色,而且可以在其周围的3D空间上定义颜色。通过以上修改,可以将培训目标函数重写为:
image-20211105191706356
其中image-20211105192519305我们用 d = 1.0 cm 做所有的实验。请参考网络体系结构的补充材料进行纹理推断。

image-20211108213602574
通过将隐式函数f分解为特征嵌入函数f1和多视点推理函数f2,可以将PIFu扩展为支持多视图输入。f1从3D世界坐标系中的每个视图计算嵌入的特征,从而允许从任意视图聚合。F2采用聚合特征向量对3D表面和纹理进行更有信息的预测。

附加视图提供了更多关于人的覆盖范围,应该会提高数字化的准确性。我们的PIFU公式提供了将来自更多视图的信息纳入表面重建和纹理推断的选项。我们通过使用PIFU学习空间中每个三维点的特征嵌入来实现这一点。特别是等式的输出域。1现在是n维向量空间s∈Rn,表示与指定的3D坐标和来自每个视图的图像特征相关联的潜在特征嵌入。由于此嵌入是在3D世界坐标空间中定义的,因此我们可以聚合共享同一3D点的所有可用视图中的嵌入。聚集的特征向量可用于对表面和纹理进行更有把握的预测。

具体地说,我们将像素对准函数f分解为特征嵌入网络f1和多视图推理网络f2,其中f: = f2○ f1。有关插图,请参见图3。第一函数F1将来自每个视点 i 的图像特征Fi(Xi):Xii(X) 和深度值 zi(X) 编码到嵌入Φi的潜在特征中。这允许我们聚合来自所有视图的相应像素特征。现在对应的3D点X被不同的视图共享,每个图像可以通过πi(X)和zi(X)将X投影到其自己的图像坐标系上。然后,通过平均汇集操作对潜在特征Φi进行聚合,得到融合嵌入Φ=Mean({Φi})。第二个函数f2从聚合嵌入Φ映射到我们的目标隐式字段s(即,用于表面重建的内部/外部概率和用于纹理推断的RGB值)。
潜在嵌入的加性特性允许我们合并任意数量的输入。请注意,也可以在相同的框架中处理SingleView输入而无需修改,因为平均操作只返回原始的潜在嵌入。对于训练,我们使用与前述单视图情况相同的训练程序,包括损失函数和点抽样方案。当我们用三个随机视图进行训练时,我们的实验表明,该模型可以包含来自三个以上视图的信息(参见SEC。4)。

Experiment:

我们在各种数据集上对我们提出的方法进行了评估,包括RenderPeople[48]和Buff71,以及DeepFashion34

由于PIFU的框架不限于特定的网络结构,从技术上讲,人们可以使用任何完全卷积神经网络作为图像编码器。对于表面重建,我们发现堆叠沙漏[41]结构是有效的,在真实图像上具有更好的泛化能力。用于纹理推理的图像编码器采用由残差块[29]组成的CycleGan[74]结构。隐函数基于多层感知器,其层与图像特征F(X)和深度z之间有跳跃连接,以有效地传播深度信息。TeX-PIFu将Fc(X)和用于曲面重建的图像特征Fv(X)一起作为输入。对于多视点PIFU,我们简单地将中间层输出作为特征嵌入,并应用平均汇集来聚合来自不同视点的嵌入。有关网络体系结构和培训过程的更多详细信息,请参阅补充材料。

可用论文:【35】SMPL: A skinned multi person linear model
【46】Learning to estimate 3D human pose and shape from a single color image.
【10】Encoder-decoder with atrous separable convolution for semantic image segmentation.

】Encoder-decoder with atrous separable convolution for semantic image segmentation.

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

知易行难w

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值