【论文阅读】Occupancy Networks: Learning 3D Reconstruction in Function Space-CSDN博客

本文链接：https://blog.csdn.net/weixin_45616624/article/details/122790729

论文题目：Occupancy Networks: Learning 3D Reconstruction in Function Space（占据网络：在函数空间内学习三维重建，简称ONet）

论文作者：Lars Mescheder；Michael Oechsle；Michael Niemeyer；Sebastian Nowozin；Andreas Geiger

论文出处：CVPR 2019

论文摘要：提出了Occupancy Networks——基于学习的三维重建方法的新表示，隐式地把三维表面表示为深度神经网络分类器的连续决策边界。以无限分辨率编码三维输出的描述，不会占用过多内存。

介绍

现有的表示：①体素表示；②点云表示；③网格表示

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5piv5LiA5Y-j576K,size_20,color_FFFFFF,t_70,g_se,x_16 — (a)体素 (b)点云 (c)网格 (d)一个分类器fθ(例如一个深度神经网络)的连续决策边界作为三维表面，允许任意分辨率的三维网格提取

体素表示的缺点：内存随分辨率呈立方增加，故需要限制在32*32*32或64*64*64。使用例如八叉树的数据自适应表示来降低内存，实现起来又会复杂，现有数据自适应算法依旧局限于相对较小的256*256*256分辨率。

点云表示的缺点：由于缺少底层网格的连接结构，需要额外的后处理来从模型中提取三维几何图形。

网格表示的缺点：现有的网格表示通常基于对一个模板网格的变形，因此不允许任意拓扑。

点云和网格都限制了使用标准前馈网络能可靠预测的点/顶点的数量。

本文贡献：提出了基于对连续三维占据函数进行直接学习的三维重建新方法。利用神经网络 $gif.latex?f_%7B%5Ctheta%20%7D$ 实现对任意分辨率的占据函数的预测。训练时大大降低了内存，推理时利用简单的多分辨率等值面提取算法从学习的模型中提取网格。

1、介绍了一种基于学习连续三维映射的对三维几何图形的新表示

2、展示了该表示如何用于从多种输入类型中重建三维几何形状

3、实验证明此方法能生成高质量网格且超越目前最优方法

相关工作

体素表示（简单）

早期工作考虑到使用基于体素网格的三维卷积神经网络由单个图像重建三维几何形状的问题，但由于内存条件限制在较小的32*32*32体素网格——

①C. B. Choy, D. Xu, J. Gwak, K. Chen, and S. Savarese. 3D-R2N2: A unified approach for single and multi-view 3D object reconstruction. In Proc. of the ECCV, 2016.

②S. Tulsiani, T. Zhou, A. A. Efros, and J. Malik. Multi-view supervision for single-view reconstruction via differentiable ray consistency. In Proc. IEEE Conf. on CVPR, 2017.

③Z. Wu, S. Song, A. Khosla, F. Yu, L. Zhang, X. Tang, and J. Xiao. 3D ShapeNets: A deep representation for volumetric shapes. In Proc. IEEE Conf. on CVPR, 2015.

有工作将分辨率提至128*128*128，但仅适用于浅架构和小的batch size，训练缓慢——

①J. Wu, Y. Wang, T. Xue, X. Sun, B. Freeman, and J. Tenenbaum. MarrNet: 3D shape reconstruction via 2.5D sketches. In Advances in NIPS, 2017.

②J. Wu, C. Zhang, X. Zhang, Z. Zhang, W. T. Freeman, and J. B. Tenenbaum. Learning shape priors for single-view 3D completion and reconstruction. In Proc. of the ECCV, 2018.

③X. Zhang, Z. Zhang, C. Zhang, J. B. Tenenbaum, W. T. Freeman, and J. Wu. Learning to reconstruct shapes from unseen classes. In Advances in NIPS, 2018.

由多个输入视图进行重建——

①M. Ji, J. Gall, H. Zheng, Y. Liu, and L. Fang. SurfaceNet: an end-to-end 3D neural network for multiview stereopsis. In Proc. of the IEEE ICCV, 2017.

②A. Kar, C. Hane, and J. Malik. Learning a multi-view stereomachine. In Advances in NIPS, 2017.

①和②以三维体素表示将相机参数和输入图像一同编码并利用三维卷积由多视图重建三维场景

③D. Paschalidou, A. O. Ulusoy, C. Schmitt, L. van Gool, and A. Geiger. Raynet: Learning volumetric 3D reconstruction with ray potentials. In Proc. IEEE Conf. on CVPR, 2018. 介绍了新架构——利用多视图几何形状约束由多个图像预测体素占据

基于VAE

①A. Brock, T. Lim, J. M. Ritchie, and N. Weston. Generative and discriminative voxel modeling with convolutional neural networks. arXiv.org, 1608.04236, 2016.

②D. J. Rezende, S. M. A. Eslami, S. Mohamed, P. Battaglia,M. Jaderberg, and N. Heess. Unsupervised learning of 3D structure from images. In Advances in NIPS, 2016.

基于GAN

J. Wu, C. Zhang, T. Xue, B. Freeman, and J. Tenenbaum. Learning a probabilistic latent space of object shapes via 3D generative-adversarial modeling. In Advances in NIPS, 2016.

由于体素表示的高内存需求，提出以多分辨率方式重建三维物体。但实现复杂，需要多次传递输入来生成最终三维模型，并且限制在较小的256*256*256分辨率——

①C. Hane, S. Tulsiani, and J. Malik. Hierarchical surface prediction for 3D object reconstruction. In Proc. of the International Conf. on 3DV, 2017.

②M. Tatarchenko, A. Dosovitskiy, and T. Brox. Octree generating networks: Efficient convolutional architectures for high-resolution 3D outputs. In Proc. of the IEEE ICCV, 2017.

为达到子体素精度，一些方法来预测截断的带符号的距离场(TSDF)，在一个三维网格中的每个点存储着到最近的三维表面上点的截断带符号距离，但由于要在三维空间中推断距离函数，不再是单纯将体素分为占有与否而更难以学习，且仍受分辨率限制

①A. Dai, C. R. Qi, and M. Nießner. Shape completion using 3D-encoder-predictor CNNs and shape synthesis. In Proc.IEEE Conf. on CVPR, 2017.

②L. Ladicky, O. Saurer, S. Jeong, F. Maninchedda, and M. Pollefeys. From point clouds to mesh using regression. In Proc. of the IEEE ICCV, 2017.

③G. Riegler, A. O. Ulusoy, H. Bischof, and A. Geiger. Oct-NetFusion: Learning depth fusion from data. In Proc. of the International Conf. on 3DV, 2017.

点云表示

首创了点云作为判别深度学习任务的表示。通过利用一个全连接神经网络独立地应用于每个点再接着一个全局池化，来实现排列不变性——

①C. R. Qi, H. Su, K. Mo, and L. J. Guibas. PointNet: Deep learning on point sets for 3D classification and segmentation. In Proc. IEEE Conf. on CVPR, 2017.

②C. R. Qi, L. Yi, H. Su, and L. J. Guibas. PointNet++: