基于深度多模态网络的季节不变语义分割

基于深度多模态网络的季节不变语义分割

(略读)

原文 Season-Invariant Semantic Segmentation with A

Deep Multimodal Network

摘要

语义场景理解对于越野行驶的自主车辆来说是一种有用的能力。虽然摄像头是用于语义分类的最常见传感器,但当列车和测试装置之间因照明、天气和季节变化而发生显著变化时,使用摄像头图像的方法的性能可能会有所降低。另一方面,来自主动传感器(如激光雷达)的3D信息对这些因素相对不变,这促使我们研究在这种情况下是否可以使用它来提高性能。在本文中,我们提出了一种新的多模态卷积神经网络(CNN)结构,由二维和三维两个流组成,通过将三维特征投影到图像空间进行融合,以实现鲁棒的像素语义分割。我们在一个新的越野地形分类基准中对我们提出的方法进行了评估,结果表明,相对于纯图像baseline,导航相关语义类的联合平均交叉度(IoU)提高了25%。

介绍

对于在非结构化越野环境中运行的自动驾驶车辆,根据语义类别(如“trail”、“grass”或“rock”)了解其环境有助于安全、谨慎地导航。由于虚假信息可能导致碰撞或其他事故,因此必须具有鲁棒的场景理解。
场景理解的一个重要步骤是语义图像分割,它在像素级对图像进行分类。近年来,深度卷积神经网络(CNN)在语义分割方面取得了最新进展[5,6,8,10,12,17,19],超过了传统的计算机视觉算法。

我们观察到,当训练集和测试集之间存在明显的外观差异时,CNN的分割性能会受到影响,这是由光照、天气和季节造成的(图1)。一个简单的解决方案是添加更多不同场景的训练数据,但这种方法成本高昂,因为需要收集数据并标记训练。
相反,解决这一问题的有效方法是使用一个额外的、互补的传感器,如激光雷达。相机在视野范围和数据密度方面具有优势,而激光雷达在对照明、天气和季节引起的外观变化不变性方面具有优势。因此,使用激光雷达收集的图像和3D点云的组合方法为CNN利用其互补特性创造了机会。
然而,以下问题仍然悬而未决:

1)如何联合使用两个传感器进行图像分割,以及

2)每个模态的哪些特征对鲁棒分割有用。
本文中中,我们提出了一种基于深度多模态网络的解决方案,该网络联合使用图像和三维点云数据,并输出分割图像。我们提出了一个带有投影模块的框架,该框架使多模态网络能够学习二维和三维特征表示,同时在训练期间有效地结合不同领域的特征,以稳健地分割图像。
为了评估我们的方法对外观变化的鲁棒性,我们组装了一个标记的图像和激光雷达数据集,该数据集是从一辆在冬季和夏季两个不同季节在越野位置行驶的改装全地形车辆上采集的。
我们表明,我们提出的方法是高度准确的,比仅图像基线更能反映这种变化。

相关工作

一般来说,语义场景理解的相关方法根据输入模式的数量大致分为两类:单模态(例如,仅图像输入)或多模态(例如,图像和三维点云)。

2.1基于单模态图像的方法

RGB图像的语义分割是一个活跃的研究课题。许多成功的方法使用图形模型,如马尔可夫或条件随机场(MRF或CRF)[1-4]。这些方法通常从将图像过度分割为超像素开始,并从单个和相邻片段中提取手工制作的特征。图形模型使用提取的特征来确保相邻区域标签的一致性。
基于CNN的方法不再依赖工程特征,而是通过从原始数据中学习强特征表示,实现了最先进的分割性能[5,6,8]。CNN方法之间的主要区别在于网络结构。Shelhamer等人[5]介绍了使用跳过层来细化所谓的反褶积层产生的分段。Badrinarayanan等人[6]提出了一种具有非冷却层的编码器-解码器体系结构。这些体系结构使用相对较慢的VGG[7]体系结构。为了降低计算成本,这是机器人学的一个重要目标,Paszke等人[8]在[9]的推动下采用瓶颈结构,以构建一个具有少量参数但与先前模型精度相似的高效网络。我们的网络基于图像的部分基于这些架构。

2.2 Multimodal Approaches 多模态方法

研究人员使用图像和3D点云进行场景理解。Munoz等人[13]为我们的工作提供了一个主要启示,他们训练了两个经典级联,每个级联对应一个模态,并使用叠加方法在两个分类筛选器之间分层传播信息。纽曼艾尔。[14] 描述一个框架,该框架通过贝叶斯决策规则和支持向量机对单个激光雷达数据进行分类,并使用多数共识来标记图像中的超像素。Cadena和Koseckˇa[15]提出了一个CRF框架,该框架加强了从两个传感器覆盖范围中提取的独立特征集之间的空间一致性。Alvis等人[16]从CRF图像中提取外观特征,并从3D点云中获取超像素集的全局约束。
还有几种基于CNN的方法使用RGB和深度(RGBD)表示,通常来自立体或结构化照明传感器。Couprie等人[10]将来自RGB-D的多尺度CNN的特征图与来自RGB图像的超像素结合起来,以分割图像。Gupta等人[12]从颜色和编码深度中提取CNN特征,以检测室内物体。他们在[11]中证明,基于对象检测计算的增强特征提高了分割性能。
Valada等人[17]最近提出了一种相关的RGBD方法。在这种方法中,首先学习相同的2D CNN来分割不同的模态输入。然后,通过总结每个CNN输出的特征图,对不同模式的特征进行融合,并随后进行处理(后期融合卷积方法)。虽然它们的融合发生在每个CNN模型的输出(后期融合),但是我们考虑从另一种模式中分层地结合特征,因为美国有线电视新闻网所学到的多个抽象层次已经被证明是有益的[ 19 ]。
我们使用RGBD的方法的一个关键区别在于,我们不仅学习2D特征,还学习3D特征。3D特征包含有用的空间信息,在2D中很难学习。

3方法

我们的目标是预测四个语义类别(“高植被”、“崎岖不平”、“雨水”、“平坦地形”、“无信息”),以便在越野中安全导航。摄像机是用于场景理解的最常见的传感器,因为它在远距离(例如,可以检测到远处的障碍物)和密集数据方面具有优势。然而,当列车和测试图像集之间由于照明、天气和季节变化而存在显著差异时,基于图像的CNN的性能可能会受到影响。另一方面,激光雷达的三维信息对这些因素相对不变。此外,我们还使用3D点云数据帮助CNN了解一组更强大的功能,以应对外观变化。

我们的深度多模网络(图2)联合使用来自摄像机的图像和来自激光雷达的3D点云,并输出分割图像。我们的框架包括一个从图像中学习二维特征表示的图像网络,一个从点云中学习三维特征表示的点云网络,以及一个将学习到的三维特征传播到图像网络的投影模块。
3D特征的传播使图像网络能够结合2D/3D特征,并在训练期间学习更稳健的特征集。在本节中,我们将详细介绍多式联运网络的这些主要组成部分。

3.1图像网络

图像网络的目标是从图像中学习二维特征表示θ2D,以最小化分类交叉熵损失。一个网络应该具有良好的分割性能,但也具有快速的预测时间和少量的参数,以便容易地嵌入到实时自治系统中。在这项工作中,我们设计了基于ENet[8]的网络,该网络已证明其性能与现有模型(如SegNet[6])相似,但推理时间更快,参数数量更少。ENet具有编码器部分(初始,阶段1-3)和解码器部分(阶段4-5),它们包括图3中描述的初始、下采样、上采样和瓶颈模块。瓶颈模块的体系结构为单个主分支和带卷积滤波器的分离分支。我们在每个阶段都会多次使用它,这使得网络更深入,对网络退化问题的脆弱性更小[9]。图5(上述网络)中描述了ENet体系结构。我们请读者参考[8]了解有关网络的更多详细信息。

3.2点云网络

与图像网络类似,点云网络学习3D特征表示θ3D,损失函数为交叉熵,最小化分类的交叉损失上。
在我们的实验中,我们使用图像网络(第3.1节),但在3D中使用3D卷积层、最大池层和上采样层。

(1出于性能方面的考虑,我们通过使用规则卷积层替换膨胀层和非对称层来简化点云网络。此外,我们将反褶积层替换为上采样层,然后将3×3×3卷积层替换为步长1。为简单起见,我们使用相同的术语“反褶积”。)

我们希望预测高植被和地形的语义类别,因为它们通常出现在越野中。

直观地说,地形区域应该比高植被区域更平滑;与地形区域相比,包含植被的空间相对不完全覆盖。Maturana和Scherer[18]利用这一想法,构造一个3D CNN,将孔隙度作为输入,预先记录着陆区探测。类似地,我们提供粗糙度和多孔特征(图4)作为网络的输入,而不是原始点云。我们的假设是,这些特征比原始点云更好地表示所需的语义类。
对于(i,j,k)索引的每个栅格体素2,我们通过计算从拟合平面到体素内每个点的平均残差来计算粗糙度特征R3Di,j,k[21]:pic

其中N是每个体素内的点数,x、y、z是每个点的位置,A、B、C、D是体素内N个点的拟合平面参数(即Ax+By+Cy+D=0)。对于空体素(即,无点),我们将恒定的负粗糙度值指定为0.1。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BgzG7WBG-1642759031948)(C:\毕业设计\pic.PNG)]

3.3 投影模块

投影模块首先将点云网络学习的3D特征投影到2D图像平面上。然后遵循图3中的瓶颈模块,以便可以将更好的特征表示传播到图像网络。
在投影方面,我们通过针孔相机模型将每个体素相对于激光雷达的质心位置(x、y、z)映射到图像平面(u、v)上:pic

其中,fx、fy、cx、cy是相机的固有参数,R和t分别是从相机到激光雷达的3x3旋转矩阵和3x1平移矩阵。我们从原始点云维度(例如,图5中的16×48×40)为每个体素大小采样(x,y,z)。这是为了解决由于3D maxpooling层减少了点云的维数而导致投影变得稀疏的问题。
我们应用z缓冲区技术来计算将多个激光雷达点投影到同一像素位置的像素。然后,我们使用最近邻插值对投影图像平面进行降采样,以匹配投影模块将合并到的图像网络层的大小(第3.4节)。
我们考虑一个固定体积的3D点云相对于激光雷达(秒4.3)。
因此,如果点云和图像的尺寸相同(例如,阶段1和阶段4的投影),则图像网络中的体素位置及其对应的投影位置是恒定的。在实践中,我们预先计算体素位置的索引及其对应的像素索引,并在网络中使用它们。

3.4多模态网络

图5总结了我们的多模网络架构:点云网络从粗糙和多孔点云学习3D特征,投影模块将3D特征传播到图像网络,图像网络将3D特征与从图像中提取的2D特征相结合。我们将投影模块应用于初始和第1-5阶段的输出,因为CNN学习的多层次特征是有益的[19]。

图5:多模式网络架构。上部2D部分是图像网络,

pic

下部3D部分是点云网络。它们通过投影模块连接。ENet模块指的是图3中的模块。瓶颈模块下方的数字表示该模块的使用次数。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值