论文阅读:SegStereo: Exploiting Semantic Information for Disparity Estimation(利用语义信息进行视差估计)

1 Introduction

我们的SegStereo (嵌入语义线索的立体)模型有利于无监督和有监督的训练。在无监督训练中,光度一致性损失和语义软最大值损失都被计算并向后传播。语义特征嵌入和语义softmax损失都可以引入语义一致性的有利约束。在KITTI立体数据集上评估的结果证明了我们策略的有效性。我们还将无监督模型应用于 CityScapes 数据集。它产生了比经典SGM方法更好的性能。对于有监督的训练方案,我们采用有监督的回归损失代替无监督的光度一致性损失来训练模型,这在KITTI Stereo基准上获得了最先进的结果。我们进一步将分段立体模型应用于 FlyingThings3D数据集。正常微调,达到高精度。

主要贡献和成就总结如下:

  • 我们提出了一个统一的框架SegStereo,它将语义分割信息整合到视差估计流水线中,其中语义一致性成为视差估计的积极指导。

  • 语义特征嵌入策略和语义指导softmax损失有助于以无监督和有监督的方式训练系统。

  • 我们的方法在KITTI立体数据集上实现了最先进的结果。CityScapes 和 FlyingThings3D数据集上的实验结果也证明了该方法的有效性。

    我们的SegStereo模型还通过warping将softmax损失传播回视差分支,这使得语义信息在整个训练过程中有效。此外,我们的模型能够在光度损失和语义感知约束下实现视差的无监督学习。

2 模型结构

图一:

SegStereo框架:输入左右图提取特征图, Fl,Fr,通过相关运算计算cost volume Fc,左分割特征图Fsl作为语义特征嵌入聚合成视差分支。右分割特征图Fsr warping到左视图,用于具有softmax损失正则化的每像素语义预测。这两个步骤都结合了语义信息来改善视差估计。SegStereo框架使用光度损失Lp或者视差回归损失Lr支持无监督和有监督学习。

2.1 Method

主干网是ResNet-50 。我们不直接计算原始像素的视差,而是采用ResNet-50模型的浅层部分从成对的输入左右图像中提取图像特征图Fl,Fr,这对局部上下文信息编码是鲁棒的。
立体匹配Fc的cost volume特征是通过Fl 和 Fr之间的相关层来计算的,类似于DispNetC. 为了在左特征上保留细节信息,我们在Fl上应用一个卷积块,得到转置 特征Ftl。同时,利用分割网络分别计算左右图像的语义特征,与视差网络共享浅层表示。左变换视差特征Ftl、相关特征Fct和左语义特征Fsl被连接为混合特征表示Fh。这里,语义线索作为语义特征嵌入被初步引入到视差网络中。
在特征嵌入之后,我们将Fh馈入视差编码器-解码器以获得全尺寸视差图。视差图进一步用于在语义损失正则化下将右语义特征Fsr warping 获取重建的左语义特征Fsl。并且使用左分割ground truth标签作为指导来学习每像素分类器。最后,语义线索指导损失Lsegis测量分类扭曲地图和地面真实标签之间。最后语义线索指导在分类warped map和ground truth标签之间测量的损失Lseg。
训练视差网络时,语义损失Lseg通过语义卷积分类器和特征warping层传播回视差分支。

3 损失函数

语义信息可以用于无监督和有监督的系统。这里我们详细说明这两种情况下的损失函数。

1. Unsupervised Manner

立体对中的一个图像可以用估计的视差从另一个图像重建,该视差应该接近原始原始输入。我们利用这一特性作为光度一致性,以无监督的方式帮助学习视差。
使用光度一致性来帮助学习无监督人体模型中的视差在这里插入图片描述
光度一致性使得能够以无监督的方式学习视差。如果Lp中没有正则项来加强估计视差的局部平滑度,则局部视差可能是不相干的
平滑度损失:
我们对视差梯度∂D应用L1惩罚
在这里插入图片描述
通过语义特征嵌入和语义损失,我们的无监督系统的总体损失是Lunsup,包括光度损失Lp、平滑损失Ls和语义线索损失Lseg。我们注意到视差标签不涉及损失计算,因此视差估计在这里被认为是无监督的学习过程。为了平衡不同损失分支的学习,我们引入了损失权重λp for Lp、λs for Ls和 λseg for Lseg。因此,总损失表示为
在这里插入图片描述

2. Supervised Manner
当提供ground truth 视差图 D^,w为视差预测的语义线索也在监督训练中起作用。我们直接采用L1范数来正则化预测,其中视差回归损失为:
在这里插入图片描述



ResNet-50 :
He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition.
In: CVPR (2016) 2, 5

DispNetC :
Mayer, N., Ilg, E., Hausser, P., Fischer, P., Cremers, D., Dosovitskiy, A., Brox,
T.: A large dataset to train convolutional networks for disparity, optical flow, and
scene flow estimation. In: CVPR (2016) 3, 5, 8, 9, 13, 14

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值