【DispNet_CVPR_2016】论文阅读之一

这篇博客是对DispNet论文的解读,该论文提出使用卷积神经网络进行实时视差估计,从而实现场景流估计。论文通过创建合成数据集并结合光流和视差网络,展示了端到端的场景流估计方法。实验结果显示,DispNet在 FlyingThings3D 和 KITTI 数据集上表现出色,特别是在速度和准确性之间取得了良好的平衡。
摘要由CSDN通过智能技术生成


CVPR找论文
arxiv找论文
论文传送门
论文相关资源

论文阅读

最近在做基于深度学习的立体匹配,因此对最早的端到端的立体匹配网络DispNet进行阅读,整理如下。
论文首图

摘要

  1. 作者扩展了使用卷积神经网络有监督的学习光流估计的想法,将其应用到视差估计和场景流估计
  2. 制作了三个合成 stereo video 数据集
  3. 提出了一个基于卷积神经网络的实时视差估计网络(重点)
  4. 通过结合光流和视差估计网络并联合训练,演示了第一个使用卷积网络的场景流估计;

1.Introduction

名词解释

stereo video:这里简单理解为双目相机拍摄的图像,即两个相机同时拍摄的两张图像。
场景流估计(scene flow estimation):提供立体图像中所有可见点的深度(视差估计)和3D运动向量(光流估计)信息。

内容

场景流估计是三维重建、运动估计、辅助驾驶、自动驾驶等高层次研究的重要基础。过去几十年的研究关注其子任务——视差估计和光流估计,并取得了一定的成功,而场景流估计作为一个整体的任务来研究,还没有获得成功。原因之一是缺乏具有完整标签的真实数据。虽然部分场景流可以通过简单的组合子任务的结果来得到,但将子任务的网络联合进行场景流估计在效率和精确度上是更有利的。

Dosovitskiy et al. [1] 将光流估计作为监督学习任务,并制作了合成的2D数据集——flying chairs,来训练他们的网络,可以在一般的视频中准确的预测光流。这些结果暗示了视差估计和场景流估计同样可以通过卷积神经网络来实现,不足的是缺少足够真实性和可变性的数据集来训练和评估网络。

2.Related work

Datasets.

MPI Sintel: 一个完全合成的数据集,源自一个简短的开源动画3D电影。
它包含足够逼真的场景,包括自然图像退化,例如雾和运动模糊。这使得数据集成为比较方法的非常可靠的测试集。

KITTI: KITTI 数据集于 2012 年产生并于 2015 年扩展。
它包含来自安装在汽车上的一对校准摄像头的道路场景立体视频。光流和视差的基本事实是从 3D 激光扫描仪结合汽车的自我运动数据获得的。虽然数据集包含真实数据,但采集方法将地面实况限制在场景的静态部分。此外,激光只提供到一定距离和高度的稀疏数据。在最新版本中,将汽车的 3D 模型安装到点云中,以获得更密集的标签,并且还包括移动物体。

可用数据集对比:
stereo video datasets

Convolutional networks.

作者采用了Dosovitskiy et al.[1] 提出的FlowNet的架构进行视差估计。
Dosovitskiy et al.[1] 使用了一种编码器-解码器架构,在收缩和扩展网络部分之间有额外的交叉链接,其中编码器从逐渐增加的感受野计算抽象特征,解码器通过扩展的上卷积架构重新建立原始分辨率。
编解码架构
在网络的收缩部分,按照输入的不同方式,分为FlowNetSample和FlowNetCorr两种架构:
在这里插入图片描述
在网络的扩展部分,将

Gatys et al. (2016) proposed an algorithm for style transfer, which can generate an image that combines the content of one image and the style of another image. The algorithm is based on the neural style transfer technique, which uses a pre-trained convolutional neural network (CNN) to extract the content and style features from the input images. In this algorithm, the content and style features are extracted from the content and style images respectively using the VGG-19 network. The content features are extracted from the output of one of the convolutional layers in the network, while the style features are extracted from the correlations between the feature maps of different layers. The Gram matrix is used to measure these correlations. The optimization process involves minimizing a loss function that consists of three components: the content loss, the style loss, and the total variation loss. The content loss measures the difference between the content features of the generated image and the content image. The style loss measures the difference between the style features of the generated image and the style image. The total variation loss is used to smooth the image and reduce noise. The optimization is performed using gradient descent, where the gradient of the loss function with respect to the generated image is computed and used to update the image. The process is repeated until the loss function converges. The code for this algorithm is available online, and it is implemented using the TensorFlow library. It involves loading the pre-trained VGG-19 network, extracting the content and style features, computing the loss function, and optimizing the generated image using gradient descent. The code also includes various parameters that can be adjusted, such as the weight of the content and style loss, the number of iterations, and the learning rate.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值