Learning Multi-modal Information for Robust Light Field Depth Estimation论文阅读_multi-modal learning for geospatial vegetation for-CSDN博客

现存的基于焦点栈的深度估计的方法由于无法聚焦的模糊得到的效果不是最优的。本文我们提出一个多种模型学习的方法进行深度估计。

首先设计一个上下文推理的模块，从焦点栈和RGB图像中提取语义丰富的上下文信息，进而挖掘内在的空间关系。

接下来使用一个注意力机制引导的跨模态融合的模块来整合上下文信息。

文章目录

前言

1、提出了一个基于卷积的图上下文推理单元去提取焦点栈和RGB图像的上下文信息。这个设计可以找到不同物体和区域的空间联系。

2、提出了一个注意力机制的引导交叉模型融合的模块，可以融合焦点栈和RGB图像的信息。可以从焦点切片中获取互补的信息，通过交叉残差链接可以获取RGB图像的特征。

一、相关工作

1、传统方法

1.1、子孔径图像

1、计算子孔径图像之间的通常的交叉联系。

2、多视角立体匹配图像的交互方法。

3、分析3D几何特征并且通过线条匹配的方式计算视差图。

1.2、极平面图像

1、利用EPI图像的临近结构和局部的临近嵌入来预测深度图。

2、使用结构的张量来计算EPI图像垂直和水平的斜率。

3、结合局部深度图和利用多方向的EPI。

2、深度学习方法

1、由编码层和解码层构成的网络来预测EPI线的方向。

2、基于CNN结构的EPI-patch网络。

3、利用光场图像的几何结构来预测深度。

4、利用焦点栈计算深度。

二、方法

1、总体架构

网络总体架构由Fig.1所示。

网络结构是由编码层和解码层构成的，目的是有效的融合提取到的特征，包括焦点栈的特征和RGB图像的特征。编码层有2层对称的特征抽取的结构：焦点栈层和RGB层。每层都是由VGG-16的骨干和上下文推理单元实现的。解码层是由渐进层次的融合结构组成的，包括注意力引导的交叉融合模块。

输入的特征是N*W*H*C，其中N是焦点切片的数量，W，H分别是焦点切片图片的宽和高，C是其通道数。

2、上下文推理单元（CRU）

CRU由三个分支组成：

1、顶部的是由一个短连接的运算器可以学习残差信息。

2、中间的分支是由扩张的卷积组成。

3、底部的分支是由多个图卷积组成。

从CRU输出的特征是由中间和底部的分支拼接起来，加上顶部的分支结果得到最终精确特征。

具体来说，多个扩张卷积是由交叉通道学习器和一个多孔空间金字塔池化层组成。这样可以通过1*1的卷积操作单元来学习复杂的通道交互。通过3*3,5*5,7*7的可以提取特征并且并且捕获多规模的空间信息。非常有利于提取图片中的大物体。

多图卷积模型如Fig.2所示，相互依赖相互依赖，可以适应图像层次的编码结构，该模型可以使用较少的参数和较多的节点在区域层次的线索中交互信息。该模型还平行的设计了多个节点的拓扑图用不同的规模来覆盖区域。根据输入的特征的空间大小，节点的数目还动态的改变，这样可以精确定义不同区域的空间特征而且可以适应较小物体的特征。