Depth Map Prediction from a Single Image using a Multi-Scale Deep Network

最新推荐文章于 2024-05-05 02:40:05 发布

NortheastSouthwest

最新推荐文章于 2024-05-05 02:40:05 发布

阅读量1.1k

点赞数 1

分类专栏：论文笔记文章标签：深度学习人工智能神经网络

本文链接：https://blog.csdn.net/weixin_51264202/article/details/128128909

版权

4 篇文章 1 订阅

订阅专栏

深度估计：获得d，d其实就代表着由3D物体投射而来的2D图像中每个像素点与相机的实际距离。

目标：从单张图中找到深度相关性

任务：用一个全局的场景视野预测总体的深度结构。
上层网络是全连接，这样可以包含整张图片的视野；底层和中层设计成通过max-pooling在小的空间维度上结合图像不同块的信息。这样网络可以利用消失点，物体位置，空间对齐等信息。
5个特征提取层（convolution and max-pooling）+2个全连接层
最终输出的深度图大致是原图的1/4分辨率，是原图的中心部分裁出，包含输入图像的大部分
输出的空间维度比顶部卷积特征层要大，允许顶部的全连接层在更大的区域（74×55 在NYU上）学习模板，效果更好

１－６层都采用 ReLU激活函数，在第六层使用dropout防止过拟合。
Coarse network cnn的1-5层在ImageNet Classification task上进行预训练后的performance比随机初始化网络好一些。

一般作者用预测值与真实值的绝对误差（欧式距离），本文用尺度不变误差
找到场景的平均尺度就占了总误差的很大一部分，因此文章使用尺度不变误差来测量场景中各点之间的关系，而不考虑绝对全局尺度。
对于一个预测的深度图 y 和ground truth y∗。n是总的像素点的个数，用i做索引。定义尺度不变均方误差（在对数空间）为：
其中，代表估计深度图与真实深度图在log空间的平均差值，将该值叠加在每个像素点的对数深度误差上就使得最终的误差具有了全局的尺度不变性。估计的深度图全局增加或减小深度均不会改变误差大小。因此尺度不变误差可以看做均值化后差异。
对于任意预测 y ， $\small e^\alpha$ 是最能与ground-trueｔｈ对应的尺度。即使估计的深度值 y 都乘上一个常数，计算的误差也不会变化，这就证明了该误差确实有尺度不变性。
设定 $\small d_i=log(y_{i}) - log(y_{i}^{*})$ 作为预测和ground-truth之间在第 i个像素的差，则：方程(2)：2个pixel预测差值要与真实差值尽可能接近

方程(3)将距离衡量与L2联系起来，但是加了一个项 $\small \frac{1}{n^{2}} \sum_{i}d_i$ 如果它们错误是同一方向的，则这一项奖励它们；如果它们错误是反方向的，这一项将惩罚它们。这样一个不是最完美的估计会有一个更低的误差，当它们的错误方向一致。

Training Loss

网络输出是 log y，也就是说最后线性层预测了对数深度

λ=0会减少element-wise L2；当 λ=1,这就变成了尺度不变损失。

取λ=0.5能产生好的绝对尺度预测，可以提升有质量的输出。

在训练中作者发现大部分真实的深度图中都含有 missing values，特别是在物体的边缘、窗户以及镜面物体上，因此作者将这些位置的像素点分割出来，并仅在有效点上计算损失。

Data Augmentation

图像的缩放和平移不保留场景的空间几何关系，需要同时修正深度信息。图像缩放时，将深度图除以s即可修正（使图像变为原来的s倍）。图像平移时不容易固定深度信息，不过提供这样的额外的数据给网络可以提升网络性能。其他数据增强方式不改变原来的深度信息。

关注