PAD-Net: Multi-Tasks Guided Prediction-and-Distillation Network for Simultaneous Depth Estimation an

最新推荐文章于 2023-07-04 15:54:35 发布

zxyhhjs2017

最新推荐文章于 2023-07-04 15:54:35 发布

阅读量2.5k

点赞数 4

分类专栏： paper

本文链接：https://blog.csdn.net/zxyhhjs2017/article/details/88078080

版权

paper 专栏收录该内容

24 篇文章 0 订阅

订阅专栏

摘要：

1.深度评估和场景稀疏是两个非常重要的计算机场景理解任务。

2.我们用一个级联的cnn来解决了这两个问题（多任务学习问题）。

3.不同于之前的任务，直接优化输入数据，我们的方法提出了一个任务导向预测和提取网络（PAD-Net）

4.先预测一系列的中间辅助任务，然后这些预测结果通过我们的提取模块作为一个多模态输入给我们最后的网络。

5.在级联学习当中，这个中间任务不仅仅作为一个监督去学写更加鲁棒的表现，而且还提供一个多模态的信息给最后的任务

6.实验在两个数据集上进行，分别是NYUD-v2和CityScapes

introduction:

1.多任务学习典型的深度多任务学习方法主要关注最终预测水平，通过采用交叉模式交互来相互完善任务[18,51]

2.或设计更有效的联合优化目标函数[40,21]。

3.然而，同时使用不同的损失函数来学习不同的任务会使网络优化变得复杂，并且通常不容易为所有任务获得良好的泛化能力，因此与仅使用优化相比，这会对某些任务带来更差的性能。 UberNet [22]发现的一项任务。

4.多模态输入数据更有利于提高预测准确度，例如采用深度信息的RGB-D就比仅使用RGB信息的表现要好。

5.采用多模态和语义图作为输入，能够让网络学到更多相关联且共享的信息，如轮廓和表面法线（什么叫表面法线）。

6.所以设计一个怎样的中间辅助任务，能够更好的帮助网络交流和共享不同信息。

7.而其他深度多任务学习模型，如十字绣网[38]，Sluice Net [44]和深度关系网[36]，只假设单模态数据。

我们提出来的方法：

1.辅助任务的范围从低级到高级，包括两个连续回归任务（单眼深度预测和表面法线估计）和两个离散分类任务（场景解析和轮廓检测）。然后将所产生的多个预测（即深度图，表面法线，语义图和对象轮廓）用作最后两个主要任务的下一个子深度网络的多模态输入。

2通过涉及中间多任务预测模块，所提出的PAD-Net不仅增加了对更有效地优化前端网络的深度监督，而且还能够结合来自相关域的更多知识。由于预测的多模态结果是高度互补的，我们进一步提出了多模态蒸馏策略以更好地使用这些数据。

3.当完成整个PAD-Net的优化时，推断仅基于RGB输入。

贡献：

总而言之，本文的贡献有三个方面：

（i）首先，我们提出了一种新的多任务指导预测和蒸馏网络（PAD-Net）结构，用于同步深度估计和场景解析。它产生一组中间辅助任务，为学习目标任务提供丰富的多模态数据。虽然PAD-Net仅将RGB数据作为输入，但它能够结合多模态信息来改进最终任务。（ii）其次，我们设计并研究了三种不同的多模态蒸馏模块，用于深度多模态数据融合，我们相信它也可以应用于其他场景，如多尺度深度特征融合。

（iii）第三，对具有挑战性的NYUD-v2和Cityscapes数据集的大量实验证明了所提方法的有效性。我们的方法在深度估计和场景解析任务上实现了NYUD-v2的最新结果，并在Cityscapes场景解析任务中获得了非常有竞争力的性能。更重要的是，所提议的方法明显优于联合优化这两项任务的最先进技术。

相关工作：Deep multi-task learning for vision.

深度多任务学习[38,44]已被广泛应用于各种计算机视觉问题，如联合推理场景几何和语义[21]，人脸属性估计[14]，同时轮廓检测和语义分割[12]。和Urtasun等人。 [57]提出了一种联合学习三个任务的方法，即对象检测，场景分类和语义分割。 Hariharan等人。 [15]提出基于R-CNN框架同时学习对象检测和语义分割。然而，他们都没有考虑在CNN的中间层引入多任务预测和多模态蒸馏步骤来改进目标任务。

方法：

1.首先输入RGB图像，通过解码器，通过最后一层得到feature map。

2.然后将前面所有层的feartuemap用卷积下采样和双线性插值得到分别率和最后一层卷积层相等的分辨率

3.然后将这些feature map concate得到一个组合的feature map 最后再进行上采样

4.同时还使用了孔洞卷积的策略来扩大感受野

多任务的方法:

我们获得具有N个通道的特征用于主要深度估计和场景解析任务，而具有N / 2个通道的特征用于其他两个辅助任务。 feature map分辨率对于四个任务是相同的，并且是前端网络feature map的2倍。然后执行单独的卷积操作以产生相应的四个任务的得分图。通过双线性插值将得分图设置为输入RGB图像分辨率的1/4。通过重新缩放的ground truth，添加了四个不同的损失函数用于学习四个中间任务

(虽然使用了四种不同的监督，但我们不需要额外的注释工作，因为表面法线和轮廓可以分别从深度和语义标签直接推断出来。)

Deep Multi-Modal Distillation:

如图所示：

1.模块A直接融合concate

2.模块B,Fik表示第i个训练样本的第k个任务，Fi,o,k表示第i个训练样本，第k个final 任务且经过融合后的输出,将Fik所对应的final任务（因为有两个final任务与auxiliary 任务有两个相同）加上其他任务（这个其他任务被其他任务的卷积何卷积过且被final任务的卷积核卷积过）

公式如下：

3.模块C使用的是注意力机制：

（1）用卷积与final任务的特征图相卷积，经过sigmoid函数得到权重参数

（2）然后再相加

Decoder Network Structure:

对于特定于任务的解码器，我们使用两个连续的反卷积层来对经过提取的特征映射进行上采样，以进行像素级预测。由于蒸馏的特征图的分辨率是输入RGB图像的1/4，因此每个反卷积层尺度进行2倍的上采样上升，因此将输出通道的数量减少一半。最后，我们使用卷积运算为每个最终任务生成得分图。

zxyhhjs2017

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
2
评论
PAD-Net: Multi-Tasks Guided Prediction-and-Distillation Network for Simultaneous Depth Estimation an

摘要：1.深度评估和场景稀疏是两个非常重要的计算机场景理解任务。2.我们用一个级联的cnn来解决了这两个问题（多任务学习问题）。3.不同于之前的任务，直接优化输入数据，我们的方法提出了一个任务导向预测和提取网络（PAD-Net）4.先预测一系列的中间辅助任务，然后这些预测结果通过我们的提取模块作为一个多模态输入给我们最后的网络。5.在级联学习当中，这个中间任务不仅仅作为一个监督...
复制链接

扫一扫