（2023）HQDec: Self-Supervised Monocular Depth Estimation Based on a High-Quality Decoder

最新推荐文章于 2025-03-14 22:50:56 发布

一天不学习我会疯的

最新推荐文章于 2025-03-14 22:50:56 发布

阅读量253

点赞数

分类专栏：深度估计文章标签： 1024程序员节

本文链接：https://blog.csdn.net/weixin_43985824/article/details/133991633

版权

深度估计专栏收录该内容

2 篇文章

订阅专栏

在这里插入图片描述

Abstract

解码器在恢复场景深度方面起着重要的作用。然而，以往研究中使用的解码器忽略了多级无损细粒度信息的传播，不能自适应地并行捕获局部和全局信息，也不能对最终输出差异进行充分的全局统计分析。此外，从低分辨率特征空间到高分辨率特征空间的映射过程是一个一对多的问题，可能有多个解决方案。因此，恢复的深度图质量较低。为此，我们提出了一种高质量的解码器(HQDec)，通过该解码器，利用所提出的自适应信息交换方案，可以将所提出的自适应轴向归一化位置嵌入信道注意力采样模块(adaxialnpcas)获得的多级别近无损细粒度信息自适应地合并到具有高级语义的低分辨率特征图中。在HQDec中，我们利用提出的自适应细化模块(AdaRM)并行模拟像素之间的局部和全局依赖关系，并利用提出的视差关注模块从全局角度模拟视差值的分布特征。为了以最大的精度恢复细粒度的高分辨率特征，我们利用像素之间的局部和全局依赖关系，将约束上采样解空间获得的高频信息自适应融合到由非学习方法生成的高分辨率特征图中。大量的实验表明，与基线结果相比，所提出的每个分量都提高了深度估计结果的质量，并且所开发的方法在KITTI和DDAD数据集上获得了最先进的结果。代码和模型将在HQDec上公开提供。

INTRODUCTION

深度在移动机器人视觉与导航[1]、智能医疗信息技术[2]-[4]、工业机器人[5]等领域发挥着至关重要的作用。虽然现有的传统方法[6]-[22]可以取得有竞争力的效果，但这些方法需要昂贵的深度传感器和相当大的劳动才能获得足够的标记有像素级深度信息的数据，甚至需要立体声视频序列[19]，[20]进行网络训练。标记深度数据的获取成本很高，并且只能应用于有限的场景。为了减轻这一限制，研究人员最近试图以一种自我监督的方式从大量容易访问的未标记单目视频中直接推断深度，从而产生各种各样的目标函数[23]-[37]。这些函数用于寻求深度估计网络(DepthNet)的全局最优解，并且设计了各种网络架构[32]，[34]，[35]，[38]-[46]来构建鲁棒的DepthNet变体
然而，现有的深度网架构仍然存在许多不足。首先，为了弥补普通下采样操作(例如，最大池化)造成的细粒度信息损失，现有方法要么忽略(例如，基于普通跳过连接[47]的方法)，要么无法利用(例如，基于密集连接和有损下采样的方法[32]，[40]，[48]，[49])包含在低级特征中的细粒度信息。为此，我们提出了一种多级近无损细粒度信息融合方案。其次，现有方法无法在解码器阶段自适应地并行利用全局和局部信息来准确推断深度。为此，我们提出了一个自适应细化模块(AdaRM)。第三，目前大多数方法[25]-[28]、[30]、[31]、[38]、[40]、[42]、[50]、[51]不能充分、全面地分析视差值。为此，我们提出了一个全局差异注意模块(AttDisp)。
具体而言，本文提出的多级近无损细粒度信息融合方案自适应地融合了由自适应轴向归一化位置嵌入通道注意力采样模块(adaxialnpcas)从高分辨率特征图中获得的多级近无损细粒度信息和显著性信息；将恢复的高频信息（利用像素之间的全局依赖关系和局部依赖关系约束解空间获得）自适应地融合到由非学习方法获得的高分辨率特征图中。该算法(a)利用局部滤波器有效捕获局部信息，并在解码阶段并行建模基于远程依赖的变压器机制;(b)自适应地将提取的局部和全局信息融合到原始特征映射中。在本文提出的AttDisp中，我们利用通过计算解码后的特征映射的全局相关性产生的全局关注权重，重新加权局部视差映射(从解码后的特征映射回归)。
最后，为了解决自监督单眼方法[25]-[28]，[30]，[40]，[52]所遇到的固有尺度模糊问题，我们提出了一种自适应尺度对齐策略，通过考虑中位数和平均值信息，将获得的估计结果缩放到用光探测和测距(LiDAR)测量的真实情况。
主要贡献：
1.提出了一种多级近无损的细粒度信息融合方案，弥补了细粒度信息的损失.
2.我们提出了一个自适应细化模块，在解码阶段有效地并行捕获局部和全局信息，并将提取的局部和全局信息自适应地融合到原始特征图中。
3.我们提出了一个视差关注模块，从全局角度对视差值的分布特征进行建模。

RELATED WORK

近年来，基于深度学习的[6]-[18]、[21]、[23]-[28]、[30]-[35]、[38]-[46]、[51]、[53]-[59]深度估计算法备受关注。这些方法根据是否需要ground truth的不同可分为监督深度估计方法和自监督深度估计方法。监督方法需要昂贵的深度传感器和大量的劳动来获得足够的标记为像素级深度信息的数据用于网络训练，而无监督方法缓解了这一限制，可以直接利用光度差异作为监督信号来训练神经网络，以估计深度和相机姿势从未标记的单目视频.

A. Supervised Depth Estimation

有监督深度估计算法需要大量人工标记的稀疏点云数据来指导深度网络的学习过程。

Eigen等人[6]首先通过叠加粗尺度和精细尺度网络从单幅图像预测深度图。随后，将深度估计任务转换为深度连续条件随机场(deep continuous conditional random field, CRF)学习问题[7]或有序回归问题[8]，[21]。Jiao等人通过基于深度感知目标的深度数据统计建模，缓解了深度数据偏差问题。为了降低网络训练过程对噪声和异常值标记的敏感性，[10]采用分层嵌入损失作为优化目标。为了进一步提高密集深度图的质量，Miangoleh等人通过学习附加的条件生成模型，将细粒度细节从高分辨率输入转移到低分辨率输入。

在过去的两年中，已经努力利用注意力机制[60]，特别是视觉转换器(ViT)[61]，以实现改进的深度估计。Huynh等人利用共面点之间的深度关注体积捕获的非局部深度依赖来指导深度估计过程。Parida等人对图像和回声之间的关系进行建模，然后利用注意图将这些模式融合在一起进行深度预测。

Bhat等[14]不是将深度范围划分为固定数量的间隔[8]，而是通过使用基于变压器的体系结构块计算自适应箱。Ranftl等人没有通过学习额外的条件生成模型将高频细节从一个估计转移到另一个具有结构一致性的估计b[11]，而是利用ViT代替卷积神经网络(cnn)作为编码器来实现更细粒度和更全局一致的预测，从而产生了显著的改进。类似地，Yang等人[16]通过直接结合线性变压器和ResNet实现了改进的连续像素预测。与上述方法[15]，[16]不同的是，Lee等[17]利用每个局部patch的注意力图对相邻像素之间的关系进行建模。在[17]的基础上，利用图卷积从图像patch中学习到的结构信息也被应用到[18]中，以获得更好的性能。

上述深度估计方法直接将深度估计任务转换为基于地面真值的有序回归问题，根据地面真值处理深度偏差，根据地面真值和附加的条件生成模型传递细粒度细节，或者基于注意力实现改进的深度预测。虽然这些方法可以获得优异的性能，但它们在很大程度上依赖于获得的真值数据。

B. Self-Supervised Depth Estimation

尽管有监督模型具有优异的性能，但它并不是普遍适用的，并且严重依赖于获得的地面真值数据。此外，数据注释过程通常是缓慢和昂贵的。获得的注释也会受到结构伪影的影响，特别是在存在反射、透明和暗表面或输出无穷大值的非反射传感器时。所有这些挑战都强烈地激励我们以一种无监督的方式推断深度(特别是从单目视频中)。2016年，Garg等人首次以无监督的方式从单个视图估计深度图。

Godard等[23]通过在其网络内强制左右深度一致性来进行单图像深度估计，但在这些情况下，需要立体图像[23]，[54]，包括摄像机在立体对[54]之间的运动。随后，Zhou等人[51]首次提出了一种完全无监督的单目估计方法。为了明确地处理动态目标和遮挡，我们引入了额外的子网[24]、[25]、[28]来分别对动态目标和静态区域建模。挖掘更多的几何先验知识[26]，[27]，[30]，以减轻动态对象的影响。此外，还利用推理过程中获得的语义信息[31]、[38]、[39]和多帧输入[46]、[53]进一步提高性能。

与上述优化目标函数或利用多任务或挖掘时间信息来提高所得深度图质量的方法不同，良好的深度网架构也被设计为将RGB图像映射的函数拟合到所需的深度水平。

为了预测高质量的深度图，特别是具有清晰细节的深度图，Zhang等[32]基于DenseNet[62]在低级特征和高级特征之间建立了密集连接。同样，为了获得具有空间和语义信息的高分辨率特征，Lyu等人[40]重新设计了跳变连接，改进了编码器和解码器之间使用的特征融合方法[48][63]。基于注意力的跨尺度特征融合方案[64]-[66]也被用于推断准确的深度。皮莱等人用亚像素卷积层[67]取代解码器中的朴素插值算子，以捕获图像中的精细细节。Guizilini等人[42]用打包和解打包方案取代了标准的步进和上采样操作，以学习保持细节的表示。Zhang等人[33]利用多尺度方案扩展了源图像上产生的深度图的感知区域。

与监督模型类似，基于注意力的方案也被用于增强无监督深度估计网络的远程建模能力。Johnston等人[43]改进了基于自注意的深度值离散化策略[8]。Ruhkamp等人[34]明确地基于自我注意建模了三维空间相关性。为了获得边界更清晰、细节更丰富的逐像素深度图，Song等人[44]采用多级特征提取策略学习丰富的层次表示，并基于每个通道计算的关注权重对给定特征图中包含的所有位置信息进行建模。Kaushik等人[35]通过直接在相应的特征图中添加注意图(从编码器的输出特征图中计算)，迫使他们的模型获得丰富的上下文信息。与Ranftl等b[45]类似，Varma等b[45]采用ViT作为自监督单目深度估计的编码器。Han等人[68]在编码器阶段通过变压器主干捕获远程依赖关系，同时在解码器阶段利用像素关注增强精细细节。Guizilini等人利用注意力机制来细化超像素匹配概率，从而改进了容易产生歧义和局部最小值的标准相似度量。

然而，上述方法要么忽略或未能利用底层特征中包含的细粒度信息，要么无法在解码阶段对全局和局部信息并行建模。此外，现有的技术对产出差值的分析不够充分和全局。

在本文中，我们提出了(a)一个多级近无损的细粒度信息融合方案，(b)一个自适应细化模块，©一个视差关注模块来解决这些缺点。

METHOD

所提出的高质量解码器(HQDec)的概述如图1所示。
在这里插入图片描述
图1:概述。左图是编码器与HQDec的连接示意图。右边的面板是一个培训架构图。为了简单起见，我们在这里只画单向训练过程，而另一个方向只需要切换角色，除了计算反姿态时。“Block”表示根据输出特征图的分辨率划分主干生成的块模块。“可学习参数”表示一个初始值为0的元素可学习参数，用于控制信息的传播。CTF表示通道变换函数。“AdaRM”代表第III-B节中提出的自适应细化模块。’ AdaAxialNPCAS '代表第III-C1节中提出的下采样模块。“DAdaNRSU”代表第III-C3节中提出的上采样模块。“AttDisp”表示第III-D节中提出的差异注意模块。

A.问题描述及优化目标

在自监督单目深度估计任务中，我们的目标是学习一个函数D_tgt = F_D(I_tgt|W_D)，它可以从给定的图像I_tgt中推断出相应的场景深度D_tgt，其中W_D是学习到的权值。由于缺乏用于指导网络参数更新的真地深度值，我们需要一个子网络来学习一个函数T = F_T([I_ref, I_tgt]|W_T)，该函数可用于预测参考图像与目标图像之间的相对位姿。根据先前开发的方法[30]，优化目标使用公式(1)所示的损失函数，在未标记的单目视频上联合训练DepthNet和CameraNet。
在这里插入图片描述
式(1)中的超参数设置与前面工作[30]中的设置相同。↑L_p表示[30]中提出的双向加权光度损失，L_d表示[30]中提出的双向深度结构一致性损失，L_s表示[30]中使用的平滑损失。L_feat表示[30]中提出的双向特征感知损失所采用的双向加权特征感知损失，[30]中提出的自适应权值和[30]中提出的双向相机遮挡蒙版对其进行加权。

B. AdaRM

CNN可以有效地提取图像中的局部特征信息，这已经成为共识，但这种网络无法对像素之间的长期依赖关系进行建模。虽然降采样可以增加特征图的接受野，从而有效地执行图像分类任务，但随着多级降采样的进行，高分辨率特征图中包含的细粒度信息逐渐被丢弃。低分辨率的特征图很难恢复丢失的信息，不利于密集的预测任务。

另一方面，尽管纯变压器机制b[60]，[61]在建模全局依赖性方面具有独特的优势，但它们缺乏cnn固有的一些归纳偏差，例如平移等方差和局部性。尽管使用这种纯转换机制对于依赖于使用更多全局信息来区分对象之间差异的图像分类任务和依赖于单词或句子的上下文信息的机器翻译任务来说是有效的，但这种机制也不利于密集预测任务，因为密集预测任务既需要考虑给定图像中每个对象的局部像素上下文信息，也需要考虑给定图像中每个对象的全局信息。这与之前开发的方法[60][61]不同，[60]通过利用纯多头自注意(MHA)机制，在机器翻译任务的输入词[60]序列和图像分割的线性贴片嵌入序列[61]之间绘制长期依赖关系，用于图像分类任务。为此，我们利用cnn和MHA的优势，提出了一个AdaRM，如图2所示。具体来说，X_AdaRM的信息来源于三个分支的信息之和。左边分支的信息是X_in中包含的原始信息。这个分支确保X_in中的信息可以完全传播到下一个阶段(X_AdaRM)。在中间分支中，我们利用cnn对X_in中像素的局部上下文信息进一步建模，并利用可学习的参数张量自适应传播到X_AdaRM中，保证X_AdaRM中每个像素的信息通过对X_in中相应位置和周围位置的像素信息进行加权融合得到。在右分支中，我们利用MHA绘制从X_in分裂的子特征序列之间的全局依赖关系，并通过使用可学习的参数张量自适应地将它们传播到X_AdaRM，从而确保每个子特征映射中的信息依赖于所有剩余子特征映射中的信息。X_AdaRM中的每个像素都能够感知本地和全局信息，而不需要降采样。
在这里插入图片描述
具体地说，假设我们是一个特征映射X∈R^C×H×W，其中C、H、W分别是该特征映射的通道数、高度和宽度。根据式(2)，利用方形滤波器(如3 × 3)函数Flocal(·)得到具有局部上下文信息的特征图X₃。为了使信息更加密集，我们首先利用F_squeeze(·)函数(如1 × 1滤波器)对X进行压缩，然后提取局部上下文信息，然后利用Funsqueeze(·)函数(如1 × 1滤波器)将X2解压缩到其原始维度，进行后续的特征融合处理。
在这里插入图片描述
其中N_sq为压缩比。

为了获得具有全局上下文信息的特征映射，我们使用样本函数F_sample(·)将X₁采样到一个不重叠的子特征映射中，该子特征映射可以使用与子特征映射形状相同的滤波器来实现，并且根据滤波器的大小来控制相互关联跨距。将子特征映射嵌入到特征向量x中，通过可学习的嵌入函数F_embed(·)计算子特征映射的全局相关性，如式(3)所示。
在这里插入图片描述
式中H_sub、W_sub和C_embed分别表示子特征映射的高度和宽度以及特征向量的个数。在F_embed(·)中，我们首先使用1×1滤波器，然后使用ELU动作函数将采样的特征映射嵌入到所需维度C_embed中，将嵌入的特征映射平展为一维张量，最后将其转置到所需的特征向量x中。

为了计算x的全局相关权重，我们首先利用一个可学习的线性变换函数linear(·)(例如，一个线性层)将x三重化，然后我们通过f_shape(·)函数将特征向量变换到N个子空间，共同关注不同位置的不同表示子空间衍生的信息。然后，将每个子空间的特征向量分成三部分，如式(4a)所示;其中一个部分作为查询向量，另外两个部分作为键值对。我们可以通过在每个子空间中的softmax函数重新缩放查询向量和对应键的乘积来计算全局相关权值。将这些权重赋给相应的值向量，得到相应子空间中相应的全局特征向量。然后，通过对不同子空间中的不同子特征进行串联和线性变换，得到包含不同位置的不同表示子空间信息的全局特征向量x₁。注意，我们采用残差连接[69]来缓解退化问题，并利用多层感知函数F_mlp(·)来增强模型的非线性拟合能力，该多层感知函数由两个线性层组成的非线性变换层和一个高斯误差线性单元函数实现。最终得到式(4c)中的全局特征向量x₂。
在这里插入图片描述
为了实现信息融合，x2和X的维数必须相等。为此，首先利用学习到的函数Frrl(·)将x2映射到式(5a)中的子特征映射X₄，通过与子特征映射的滤波器形状和步幅相同的转置卷积实现。然后，公式(5b)中X₄的通道通过学习的线性函数F_{unsqueeze(·)}(例如1×1过滤器)对齐。最后根据式(5c)得到X_AdaRM。
在这里插入图片描述

C.多级近无损细粒度信息融合

细粒度信息对密集预测任务的性能影响很大。然而，随着下采样的进行，高频信息会丢失。一旦高频信息丢失，在进行不可逆转的低通滤波和子采样操作后，很难从低分辨率地图中恢复细粒度的高分辨率特征地图[67]，[70]。现有的方法在编码器和解码器之间设计了简单的跳过连接[47]或密集连接[49]，以减少信息的丢失程度。然而，这些方案要么忽略，要么无法利用包含在较低级别的特征中的细粒度信息。为此，我们提出了一种多级近无损的细粒度信息融合方案来补偿细粒度信息的损失。在该方案中，我们通过(1)改进下采样策略以将更多细粒度信息传播到低分辨率特征图中，(2)自适应地将多级别细粒度信息合并到高级别特征图中，以及(3)改进上采样策略以尽可能多地恢复高频信息来解决这一挑战。

1)驱动低分辨率特征图保留更细粒度的信息:与编码器输出高级语义的低分辨率特征图相比，在浅层输出更高分辨率的特征图保留了更多细节。这促使我们将高分辨率特征图中包含的更多空间结构信息传播到具有高语义的低分辨率特征上。受[42]，[63]，[67]，[71]的启发，我们提出了AdaAxialNPCAS，如图3所示。本文提出的adaxialnpcas不直接进行最大池化或步进下采样，而是直接将卷积特征图的空间维度沿轴向折叠成额外的特征通道，从而获得相应的低分辨率特征图。在转换过程中，高分辨率特征图中多余的像素被直接放到低分辨率特征图中的额外通道中，保证了信息不会丢失。与先前开发的方法[42]不同，[42]通过3D卷积将连接的特征映射压缩到所需数量的输出通道，我们首先添加原始特征映射中每个元素的位置信息，然后执行重组，然后利用可学习的全局平均池化计算可以表示每个通道的通道头。为了给所需的通道赋予更大的权重，我们利用通道头计算的权重对每个通道进行重新加权，并将重新加权的特征映射压缩为所需的形状。

具体地说，给定一个特征映射X∈R^C×H×W，我们首先沿着高度方向对X中的元素进行重新排列，并将原始特征映射中每个元素的位置信息添加到重新排列的张量中，目的是将空间信息无损地压缩到通道维度中，从而得到一个新的张量X_h∈R^C∗s_hx H/S_h ×W^，其中S_h表示沿高度维度的下采样操作次数。然后，利用组卷积对Xh中包含的信息进行重组。为了对重组后的特征图通道之间的依赖关系进行建模，我们首先利用一个学习到的参数张量对特征图中的元素进行加权，该张量初始化为1，因为同一通道中的不同元素在表示全局通道信息方面起着不同的作用。然后，我们对加权特征映射的空间信息执行全局平均池化，以表示每个通道，并使用大小为3的核的1D卷积来学习相关性。最后，利用s型函数求得各通道间的注意权值。重组后的特征映射，其通道包含原始特征图的空间信息，与注意权值相乘，使模型专注于将原始特征图的空间结构压缩到通道维度中生成的更有用的空间信息。然后，我们利用特征映射压缩头(例如，3 × 3卷积之后是一个ELU函数)将通道压缩到所需的形状。同样，我们沿着宽度方向处理得到的特征映射。为了保留低分辨率特征图中包含的最显著信息，并将其自适应融合到上述处理方案得到的特征图中，对最大池化得到的具有显著信息的采样特征图进行归一化并乘以一个学习参数张量，该张量初始化为零，然后进行融合。

2)自适应地将多层细粒度信息融合到高层特征图中:现有作品[40]、[49]、参考[49]直接将低层详细信息与高层语义特征图融合;然而，不同层次信息之间存在的语义差距阻碍了信息融合。参考[40]将不同级别的语义信息融合到更高分辨率的特征图中。然而，不准确的语义信息会对高分辨率特征图产生负面影响。

为了利用多层次的层次信息尽可能准确地恢复场景深度，我们提出了AdaIE，它可以自适应地将多层细粒度信息融合到高层次的语义特征图中，并让模型自己决定需要融合哪些细粒度信息以及融合到什么程度。具体来说，为了控制信息的传播，我们首先创建一个与待融合特征图形状相同的可学习参数张量，并将其初始值设为零。在将高分辨率特征图中包含的空间结构细节纳入高级语义特征图之前，将张量与对应的特征图相乘，如式(6)所示。例如，编码后的特征图X³_enc不仅嵌入了来自X⁴_dec的高级语义信息，还自适应地融合了低级特征图(如X⁰ _enc、X¹_enc等)中包含的空间结构细节，然后进行解码。因此，更高层次的语义信息和更精确的空间细节可以实现优势互补，从而获得更清晰的场景深度。
在这里插入图片描述
其中pi是一个初始值为0的可学习参数张量。在训练过程中，它的参数随着模型参数的更新而更新。K∈{0,1,2,3}表示阶段数

3)通过约束解空间恢复尽可能多的高频信息:上采样是基于编码器和解码器的deepnet的重要组成部分，它直接影响预测深度图的质量。然而，由于从低分辨率特征空间到高分辨率特征空间的映射过程是一对多的问题，可能有多个解决方案，因此利用非学习方法很难从低分辨率地图中恢复细粒度的高分辨率特征地图。为此，不同于现有的仅使用双线性或最近邻插值法(仅考虑局部上下文信息)恢复高分辨率特征图的方法，我们提出了DAdaNRSU(如图4所示)。该方法通过自适应建模像素之间的局部和全局依赖关系来限制解空间，并将这些信息自适应融合到传统上采样方法获得的粗粒度高分辨率特征图中，从而恢复更多的高频信息。

具体来说，给定一个特征映射X_in∈R^C×H×W，一方面，粗粒度的高分辨率特征映射X¹_high∈RC×2H×2W有助于在训练过程开始时为解码器的每一层提供良好的初始值，可以通过传统的上采样方法恢复，这种方法通常用于解码器[25]，[26]，[51]。另一方面，通过学习函数Fexpand(·)与1×1滤波器将低分辨率特征映射Xin展开为高维特征子空间，恢复式(7)中的高分辨率特征映射。为了寻找限制解空间的额外约束，我们对X1中像素之间的局部和远程依赖关系进行了建模利用第III-B节中的公式(5c)。然后，利用[72]中的像素变换函数fpixelshufle(·)，将X2 low∈ 4C×H×W中的元素重新排列，形成新的特征空间 C×2H×2W，得到高分辨率特征地图X2 high∈ C×2H×2W。最后，我们利用与特征映射形状相同且初始化为零的学习参数张量P，自适应地将公式(7e)归一化的X2 high融合为归一化的X1 high。
在这里插入图片描述
式中，E(·)和σ(·)分别为平均标准差。

D. Disparity Attention Module

视差输出层是深度估计网络的重要组成部分，它在将解码后的特征图转化为期望的视差信息的过程中起着重要作用。然而，目前大多数方法[25]-[28]，[30]，[31]，[38]，[40]，[42]，[50]，[51]直接使用局部二维卷积后的sigmoid函数将解码的特征映射回归到视差值，但这种技术无法进行足够的全局分析来推断当前像素的视差值。直观上，充足的上下文信息可以提供更好的语义像素信息，有助于准确预测当前像素的深度信息。为此，我们提出视差关注模块(如图5所示)，利用足够的上下文信息，从相应的解码特征图中推断出视差值。

具体来说，给定已解码的特征映射Xdec∈R^C×H×W，我们可以根据公式(3)和(4)计算相应的全局特征向量Xdec∈R^H/Hsub∗W/Wsub ×Cembed^。与第III-B节中全局特征向量的目的不同，我们期望从Xdec中获得视差信息的全局相关矩阵。为此，我们首先将x T dec∈cembedx H Hsub * W Wsub重塑为一个矩阵，然后利用可学习的线性函数(例如1×1卷积函数)将该矩阵线性变换为相应的子特征映射Xgc∈ cembedx H Hsub × W Wsub。然后，我们利用由转置卷积实现的学习函数{Frrl(·)将Xgc映射到注意力特征映射Xatt∈ 1×H×W中，该函数的滤波器形状和步幅与子特征映射相同。同时，我们利用二维卷积核将Xdec映射到相应的视差映射Dlocal∈λ 1×H×W。为了赋予Dlocal一个全局视野，Dlocal乘以使用sigmoid函数激活Xatt生成的全局注意力权重。

E.自适应规模对齐策略

从单目视频直接预测的深度尺度是未知的。我们不是根据中位数信息[25]-[28]，[30]，[40]，[52]来计算尺度因子，而是提出一种自适应尺度对齐策略，如式(8)所示，其中中位数和平均值信息都可以被考虑来获得尺度因子
在这里插入图片描述
中位数是ζ = 1的特殊情况。我们把0到1的区间分成10等份。对于每个值，我们计算相应的相对绝对值误差，并将最小误差对应的比例因子作为当前帧深的比例因子。

F. Network Design

DepthNet: EfficientNetV2-s[73]，没有分类器，被用作编码器。为了构建DepthNet，编码器根据输出特征图的分辨率分为五个块。将各块输出的编码特征图按式(9)进行细化，编码器与HQDec的整体连接图如图1所示。
在这里插入图片描述
式中I∈{0，…， 3}， j∈{0，…Fct(·)表示通道转换函数，该函数由3×3过滤器和ELU函数实现。Fref fine(·)表示第III-B节中提出的特征映射细化模块。

因此，通过重写式(6)可以得到k阶段解码后的特征映射Xk dec，计算过程如式(10)所示。
在这里插入图片描述
根据之前的工作[30]，将解码后的特征映射Xk dec, k∈{0,1,2}作为对应的候选特征生成视差信息。根据公式(11)，我们将解码后的特征映射Xk dec映射到所需的视差。最后，按照惯例[25]，[26]，[30]，[51]，根据式(12)将视差估计值映射为0.1 ~ 100米的实际距离。
在这里插入图片描述
其中Fdisp(·)表示第III-D节中提出的视差注意模块。Dk和Dk disp分别表示相应的估计深度和预测视差。

b) CameraNet:使用FBNetV3-B[74]作为编码器，没有分类器头。为了将由目标帧和参考帧组成的视频片段馈送到网络，第一个卷积层中的通道数从3个改为9个。编码后的高级语义特征首先通过1 × 1步长为1的滤波器进行压缩，然后通过两个3 × 3卷积层和一个整流线性单元(ReLU)函数进行变换。最后，通过全局平均池化，将所有空间位置的估定值聚合起来，以6个自由度参数化相对位姿，前3个自由度表示平移，后3个自由度表示旋转矢量