Abstract
动态三维场景的建模与再现是三维视觉领域的一个具有挑战性的课题。先前的方法基于 NERF 并依赖于隐式表示这是缓慢的,因为它需要许多 MLP 评估,限制真实世界的应用程序。我们展示了动态三维场景可以明确地表示为六个平面的学习功能,导致一个优雅的解决方案,我们称为 Hex刨面。一个 Hex刨面通过融合从每个平面提取的向量来计算时空点的特征,这是非常有效的。通过微小的 MLP 配对一个 HexPlann 来回归输出颜色,并通过立体渲染进行训练,可以在动态场景中获得令人印象深刻的新视图合成效果,与之前工作的图像质量相匹配,但减少了100多倍的训练时间。广泛的消融证实了我们的 Hex刨设计,并表明它是健壮的不同的特征融合机制,坐标系统和解码机制。Hex刨是一个简单而有效的四维体量表示方案,我们希望它能够为动态三维场景的时空建模做出广泛的贡献
图1。用于动态三维场景的 Hex刨面。我们没有从深度 MLP 中回归颜色和不透明度,而是通过 HexPlann 显式地计算时空点的特征。配对一个微小的 MLP,它允许以上100倍加速匹配的质量。
1. Introduction
从一组二维图像中重建和再现三维场景是一个核心视觉问题,它可以实现多种 AR/VR 应用。最近几年,在重建静态场景方面取得了巨大的进展,但这种假设是有限的: 真实世界是动态的,在复杂的场景中,运动是常态,而不是例外。目前许多表示动态3D 场景的方法依赖于内隐表示,建立在 NeRF的基础上。他们训练一个大型多层感知器(MLP) ,输入点在空间和时间中的位置,并输出点的颜色[28,29]或变形到规范的静态场景。在这两种情况下,从新视图渲染图像是昂贵的,因为每个生成的像素需要许多 MLP 评估,训练同样缓慢,需要多达数天的 GPU 时间来建模一个单一的动态场景; 这种计算瓶颈阻碍了这些方法的广泛应用。
最近的几种静态场景建模方法已经通过显式和混合方法在 NeRF 上展示了巨大的加速效果。这些方法使用显式的空间数据结构来存储显式的场景数据或由微小 MLP 解码的特征。这使模型的容量与