《A Large Dataset to Train Convolutional Networks for Disparity, Optical Flow, and Scene Flow Estimation》
CVPR找论文
arxiv找论文
论文传送门
论文相关资源
论文阅读
最近在做基于深度学习的立体匹配,因此对最早的端到端的立体匹配网络DispNet进行阅读,整理如下。
摘要
- 作者扩展了使用卷积神经网络有监督的学习光流估计的想法,将其应用到视差估计和场景流估计
- 制作了三个合成 stereo video 数据集;
- 提出了一个基于卷积神经网络的实时视差估计网络(重点);
- 通过结合光流和视差估计网络并联合训练,演示了第一个使用卷积网络的场景流估计;
1.Introduction
名词解释
stereo video:这里简单理解为双目相机拍摄的图像,即两个相机同时拍摄的两张图像。
场景流估计(scene flow estimation):提供立体图像中所有可见点的深度(视差估计)和3D运动向量(光流估计)信息。
内容
场景流估计是三维重建、运动估计、辅助驾驶、自动驾驶等高层次研究的重要基础。过去几十年的研究关注其子任务——视差估计和光流估计,并取得了一定的成功,而场景流估计作为一个整体的任务来研究,还没有获得成功。原因之一是缺乏具有完整标签的真实数据。虽然部分场景流可以通过简单的组合子任务的结果来得到,但将子任务的网络联合进行场景流估计在效率和精确度上是更有利的。
Dosovitskiy et al. [1] 将光流估计作为监督学习任务,并制作了合成的2D数据集——flying chairs,来训练他们的网络,可以在一般的视频中准确的预测光流。这些结果暗示了视差估计和场景流估计同样可以通过卷积神经网络来实现,不足的是缺少足够真实性和可变性的数据集来训练和评估网络。
2.Related work
Datasets.
MPI Sintel: 一个完全合成的数据集,源自一个简短的开源动画3D电影。
它包含足够逼真的场景,包括自然图像退化,例如雾和运动模糊。这使得数据集成为比较方法的非常可靠的测试集。
KITTI: KITTI 数据集于 2012 年产生并于 2015 年扩展。
它包含来自安装在汽车上的一对校准摄像头的道路场景立体视频。光流和视差的基本事实是从 3D 激光扫描仪结合汽车的自我运动数据获得的。虽然数据集包含真实数据,但采集方法将地面实况限制在场景的静态部分。此外,激光只提供到一定距离和高度的稀疏数据。在最新版本中,将汽车的 3D 模型安装到点云中,以获得更密集的标签,并且还包括移动物体。
可用数据集对比:
Convolutional networks.
作者采用了Dosovitskiy et al.[1] 提出的FlowNet的架构进行视差估计。
Dosovitskiy et al.[1] 使用了一种编码器-解码器架构,在收缩和扩展网络部分之间有额外的交叉链接,其中编码器从逐渐增加的感受野计算抽象特征,解码器通过扩展的上卷积架构重新建立原始分辨率。
在网络的收缩部分,按照输入的不同方式,分为FlowNetSample和FlowNetCorr两种架构:
在网络的扩展部分,将