【DispNet_CVPR_2016】论文阅读之一

大猩猩银背

已于 2022-05-07 12:13:00 修改

阅读量1.9k

点赞数

分类专栏：立体匹配文章标签：深度学习计算机视觉人工智能

于 2022-05-05 19:30:06 首次发布

本文链接：https://blog.csdn.net/y_zl20420/article/details/124581392

版权

这篇博客是对DispNet论文的解读，该论文提出使用卷积神经网络进行实时视差估计，从而实现场景流估计。论文通过创建合成数据集并结合光流和视差网络，展示了端到端的场景流估计方法。实验结果显示，DispNet在 FlyingThings3D 和 KITTI 数据集上表现出色，特别是在速度和准确性之间取得了良好的平衡。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

《A Large Dataset to Train Convolutional Networks for Disparity, Optical Flow, and Scene Flow Estimation》

论文阅读

CVPR找论文
arxiv找论文
论文传送门
论文相关资源

论文阅读

最近在做基于深度学习的立体匹配，因此对最早的端到端的立体匹配网络DispNet进行阅读，整理如下。
论文首图

摘要

作者扩展了使用卷积神经网络有监督的学习光流估计的想法，将其应用到视差估计和场景流估计
制作了三个合成 stereo video 数据集；
提出了一个基于卷积神经网络的实时视差估计网络（重点）；
通过结合光流和视差估计网络并联合训练，演示了第一个使用卷积网络的场景流估计；

1.Introduction

名词解释

stereo video：这里简单理解为双目相机拍摄的图像，即两个相机同时拍摄的两张图像。
场景流估计（scene flow estimation）：提供立体图像中所有可见点的深度（视差估计）和3D运动向量（光流估计）信息。

内容

场景流估计是三维重建、运动估计、辅助驾驶、自动驾驶等高层次研究的重要基础。过去几十年的研究关注其子任务——视差估计和光流估计，并取得了一定的成功，而场景流估计作为一个整体的任务来研究，还没有获得成功。原因之一是缺乏具有完整标签的真实数据。虽然部分场景流可以通过简单的组合子任务的结果来得到，但将子任务的网络联合进行场景流估计在效率和精确度上是更有利的。

Dosovitskiy et al. [1] 将光流估计作为监督学习任务，并制作了合成的2D数据集——flying chairs，来训练他们的网络，可以在一般的视频中准确的预测光流。这些结果暗示了视差估计和场景流估计同样可以通过卷积神经网络来实现，不足的是缺少足够真实性和可变性的数据集来训练和评估网络。

2.Related work

Datasets.

MPI Sintel: 一个完全合成的数据集，源自一个简短的开源动画3D电影。
它包含足够逼真的场景，包括自然图像退化，例如雾和运动模糊。这使得数据集成为比较方法的非常可靠的测试集。

KITTI: KITTI 数据集于 2012 年产生并于 2015 年扩展。
它包含来自安装在汽车上的一对校准摄像头的道路场景立体视频。光流和视差的基本事实是从 3D 激光扫描仪结合汽车的自我运动数据获得的。虽然数据集包含真实数据，但采集方法将地面实况限制在场景的静态部分。此外，激光只提供到一定距离和高度的稀疏数据。在最新版本中，将汽车的 3D 模型安装到点云中，以获得更密集的标签，并且还包括移动物体。

可用数据集对比：
stereo video datasets

Convolutional networks.

作者采用了Dosovitskiy et al.[1] 提出的FlowNet的架构进行视差估计。
Dosovitskiy et al.[1] 使用了一种编码器-解码器架构，在收缩和扩展网络部分之间有额外的交叉链接，其中编码器从逐渐增加的感受野计算抽象特征，解码器通过扩展的上卷积架构重新建立原始分辨率。
编解码架构
在网络的收缩部分，按照输入的不同方式，分为FlowNetSample和FlowNetCorr两种架构：
在这里插入图片描述
在网络的扩展部分，将