MVSNet拜读：MVSNet: Depth Inference for Unstructured Multi-view Stereo

人工智睿

已于 2022-05-25 20:31:42 修改

阅读量1.1k

点赞数 1

分类专栏：自动驾驶与三维重建文献拜读文章标签：深度学习计算机视觉人工智能

于 2022-05-10 16:01:48 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44671418/article/details/124690113

版权

自动驾驶与三维重建同时被 2 个专栏收录

20 篇文章 33 订阅

订阅专栏

17 篇文章 5 订阅

订阅专栏

当传统方法约束MVS中的特征点遇到遮挡，反光等原因会使得效果受到很大影响。

因此Deep Learning的方法是使用卷积网络抽取特征，并且去隐式地约束这些特征与source image特征的关联。具体约束方法有最小化方差等。

MVSNet出于2018年ECCV，有效应用于深度图估计（不过GPU消耗太大）。利用三维代价体：基于可微分的单应性变换的cost volume来回归像素的深度。
在这里插入图片描述

过程：

输入一张reference image（为主）和几张source images（辅助）
分别用网络提取出下采样四分之一的32通道的特征图；
沿用双目立体匹配里提出的cost volume的概念，将几张source images的特征利用单应性变换( homography warping)转换到reference image，在转换的过程中，类似极线搜索，引入了深度信息。
利用3D卷积操作cost volume正则化，先输出每个深度的概率，然后求深度的加权平均得到预测的深度信息，用L1或smoothL1回归深度信息，是一个回归模型。
利用多张图片之间的重建约束（photometric and geometric consistencies）来选择预测正确的深度信息，重建成三维点云。

注意：原论文公式（1）写错了，但是代码没写错。其实就是相机1坐标系下p1如何转换为相机坐标系下p2的问题，已知世界坐标系下相机1、2的R和t，只需要闭环矩阵转换就可以了。当然其中涉及内参K的映射反映射。

资源：

1.基础部分：Homograph单应性

2.核心部分：Multi-View Stereo中的平面扫描(plane sweep)

3.实战部分：MVSNet_pytorch lighting
3.1不用pl的pytorch版本，比源码效果好
 3.2代码部分：详细的介绍

4.进阶部分：系列论文的中文导读
 4.1进阶部分：系列论文的GitHub汇总

5.进阶部分：相关视频讲解，需翻

花边：Pytorch Lightning教程

关注

1
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。