Learning Multi-modal Information for Robust Light Field Depth Estimation论文阅读

        现存的基于焦点栈的深度估计的方法由于无法聚焦的模糊得到的效果不是最优的。本文我们提出一个多种模型学习的方法进行深度估计。

        首先设计一个上下文推理的模块,从焦点栈和RGB图像中提取语义丰富的上下文信息,进而挖掘内在的空间关系。

        接下来使用一个注意力机制引导的跨模态融合的模块来整合上下文信息。


前言

1、提出了一个基于卷积的图上下文推理单元去提取焦点栈和RGB图像的上下文信息。这个设计可以找到不同物体和区域的空间联系。

2、提出了一个注意力机制的引导交叉模型融合的模块,可以融合焦点栈和RGB图像的信息。可以从焦点切片中获取互补的信息,通过交叉残差链接可以获取RGB图像的特征。


一、相关工作

1、传统方法

1.1、子孔径图像

1、计算子孔径图像之间的通常的交叉联系。

2、多视角立体匹配图像的交互方法。

3、分析3D几何特征并且通过线条匹配的方式计算视差图。

1.2、极平面图像

1、利用EPI图像的临近结构和局部的临近嵌入来预测深度图。

2、使用结构的张量来计算EPI图像垂直和水平的斜率。

3、结合局部深度图和利用多方向的EPI。

2、深度学习方法

1、由编码层和解码层构成的网络来预测EPI线的方向。

2、基于CNN结构的EPI-patch网络。

3、利用光场图像的几何结构来预测深度。

4、利用焦点栈计算深度。


二、方法 

1、总体架构

        网络总体架构由Fig.1所示。

        网络结构是由编码层和解码层构成的,目的是有效的融合提取到的特征,包括焦点栈的特征和RGB图像的特征。编码层有2层对称的特征抽取的结构:焦点栈层和RGB层。每层都是由VGG-16的骨干和上下文推理单元实现的。解码层是由渐进层次的融合结构组成的,包括注意力引导的交叉融合模块。

        输入的特征是N*W*H*C,其中N是焦点切片的数量,W,H分别是焦点切片图片的宽和高,C是其通道数。

2、上下文推理单元(CRU)

CRU由三个分支组成:

1、顶部的是由一个短连接的运算器可以学习残差信息。

2、中间的分支是由扩张的卷积组成。

3、底部的分支是由多个图卷积组成。

从CRU输出的特征是由中间和底部的分支拼接起来,加上顶部的分支结果得到最终精确特征。

具体来说,多个扩张卷积是由交叉通道学习器和一个多孔空间金字塔池化层组成。这样可以通过1*1的卷积操作单元来学习复杂的通道交互。通过3*3,5*5,7*7的可以提取特征并且并且捕获多规模的空间信息。非常有利于提取图片中的大物体。

多图卷积模型如Fig.2所示,相互依赖相互依赖,可以适应图像层次的编码结构,该模型可以使用较少的参数和较多的节点在区域层次的线索中交互信息。该模型还平行的设计了多个节点的拓扑图用不同的规模来覆盖区域。根据输入的特征的空间大小,节点的数目还动态的改变,这样可以精确定义不同区域的空间特征而且可以适应较小物体的特征。


        具体来说,给定输入的特征,通过三个平行的分支建立三个节点拓扑图定义空间的关系。每个分支可以分为三步:

1、空间映射,将特征从相关空间S映射到交互空间I。首先将X的维度降低,通过1*1,通道数为(W*H)/(4*(2^i-1))的卷积将特征规范化。 

2、特征图卷积,推导出图之间的关系。在映射之后,建立一个有邻接矩阵的全连接图,因此每个节点包含特征描述器。这样以后捕捉上下文的信息简化为边之间的交互。

3、重投影,在特征图卷积之后,将得到的特征重新从交互空间I映射回相关空间S.

3、注意力引导的交叉融合模型

        该模块融合了焦点切片隐藏的深度信息和RGB图像丰富的语义信息。该模块可以分为两步:

1、增强特征用来提取互补的信息。首先用3D模块和2D模块实现的交叉模块的残差连接来捕获互补的信息。接着用1*1的2D卷积学习更深层的特征。

2、融合增强的特征,将RGB特征和焦点切平面特征使用多头注意力融合起来。首先给每一个切片使用粗的注意力机制,之后可以将每个切片的深度信息和RGB图像的内容信息拼接起来。接下来将每个切片的特征用一个全局的表示联系起来。最后一步采用一个简单的卷积层,得到最终的融合结果。

总结

        在本文中,通过焦点栈和RGB图来预测光场图片深度。1、全面提取纹理信息来寻找内部空间联系。 2、有效的融合从焦点栈和RGB图像中,使用注意力引导交叉融合模型提取到的信息。全面的利用了网络中每个模块的每个部分的特性,并且取得了非常好的效果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值