一,概述
这篇论文提供了一个神经网络,带有两种信息:1.场景的全局结构。2.利用局部信息来精确。训练的误差源于深度信息和像素点位置之间的关系,属于对于像素的误差值。
二,方法
1,模型
(1)全局粗糙神经网络:
粗糙网络的任务是利用全局的场景视野预测除整个场景的深度图结构,上层layer是全连接层,包含了整个场景的信息。类似的,底层和中层通过最大池化操作来联合图像各个部分的信息。这样网络就可以集合对整个场景的全局理解来预测深度。在单幅图像中,这种对全局的理解需要高效地利用一些线索,比如隐含地点,物体的位置,房间调齐(room alignment),而局部地视野是无法注意到这些的。
粗糙网络包含五个特征提取层,每层包含卷积和池化操作。后面跟着两个全连接层。最后的输出结果分辨率是输入的四分之一。
Note that the spatial dimension of the output is larer than that of the topmost convolutional feature map.与其在将预测结果送往fine network前限制输出的feature map的尺寸和依赖hardcode来上采样,我们选择allow the top full layer to learn templates over the larger area(75 * 55 for NYU Depth)(也就是Coarse 7)这样要比直接从Coarse5上学习更好,本质上是让网络自己学习如何从feature中学习上采样(看图2)
所有的hidden layers 都用relu作为激活函数,除了第七层,是线性函数,在全连接