论文阅读笔记：SimpleRecon

Z-Pengcheng

已于 2023-11-12 18:54:16 修改

阅读量561

点赞数

文章标签：论文阅读 cnn 深度学习

于 2022-11-27 19:03:48 首次发布

本文链接：https://blog.csdn.net/zpc20000929/article/details/128067740

版权

基本信息

作者：Mohamed Sayed
论文：SimpleRecon 3D Reconstruction Without 3D Convolutions
代码：https://github.com/nianticlabs/simplerecon

概述

传统的室内三维场景重建方法分为两个阶段:单图像深度估计、深度融合与表面重建。现有的基于学习的重建方法依赖于3D卷积，使得模型的计算复杂度较高。为此，本文提出一种多视图深度估计模型，主要包含两个部分：(1) 精心设计的2D CNN模块，该模块充分利用了图像先验以及平面扫描特征量和几何损失。（2）使用多层感知器(MLP)将关键帧和几何元数据集成到代价体中。

模型架构

在这里插入图片描述
记参考视图为 $I^0$ ，其余的源视图记为 $I^{N ∈ { 1 , . . . , N − 1 }}$ ，相机内参与对应的相机姿态也使用类似的标记方式。模型的整体架构如上图所示，使用图像编码器从参考图像和源图像中提取特征图用于构建代价体。代价体的输出使用 2D CNN 编码-解码器模块进行处理，并在代价聚合阶段使用参考视图的提取到的多层级特征图进行融合。

基于元数据与特征图构建的代价体

核心点为将元数据与深度特征图一起构建代价体，使得模型能从几何和相对相机姿势信息中挖掘更多的潜在有用信息，如下图所示：
在这里插入图片描述
代价体的维度为 C × D × H × W，代价体的索引值 ( k , i , j ) 代表在像素坐标 ( i , j ) 位置，第 k 个深度平面的特征向量的维度为 C。