Predicting Semantic Map Representations from Images using Pyramid Occupancy Networks 翻译

最新推荐文章于 2022-12-30 11:08:44 发布

zzzzz忠杰

最新推荐文章于 2022-12-30 11:08:44 发布

阅读量2.2k

点赞数 1

分类专栏：笔记文章标签：计算机视觉深度学习自动驾驶

本文链接：https://blog.csdn.net/weixin_43889128/article/details/122301675

版权

笔记专栏收录该内容

75 篇文章 3 订阅

订阅专栏

摘要

自动驾驶汽车通常依赖于其环境的高度详细的鸟瞰图，该地图捕捉场景的静态元素（如道路布局）以及动态元素（如其他汽车和行人）。动态生成这些地图表示是一个复杂的多阶段过程，其中包含许多重要的基于视觉的元素，包括地平面估计、道路分割和 3D 对象检测。在这项工作中，我们提出了一种简单、统一的方法，用于使用单个端到端深度学习架构直接从单目图像估计地图。对于地图本身，我们采用语义贝叶斯占用网格框架，允许我们在多个摄像机和时间步长上轻松积累信息。我们通过对 NuScenes 和 Argoverse 数据集上的几个具有挑战性的基线进行评估来证明我们的方法的有效性，并表明与性能最佳的现有方法相比，我们能够分别实现 9.1% 和 22.3% 的相对改进。

1 引言

自动驾驶汽车和其他机器人平台需要对其环境进行丰富、简洁和详细的表示，以捕捉静态世界的几何和布局以及其他动态代理的姿势和尺寸。这种表示通常为所有决策提供基础，包括路径规划、防撞和导航。一种流行的解决方案不是完整地捕捉完整的 3D 世界，而是以鸟瞰图 (BEV) 地图的形式表示世界，它提供了一种紧凑的方式来捕捉场景的空间配置。这种地图很方便，因为它们易于可视化和处理，利用了这样一个事实，即在许多场景中必不可少的导航编队主要限于地平面。
然而，鸟瞰图的构建目前是一个复杂的多阶段处理管道，涉及多个基本机器视觉任务的组合：运动结构、地平面估计、道路分割、车道检测、3D 对象检测等等。直观地说，所有这些任务都是相关的：了解道路的布局应该告诉我们应该在图像中的哪个位置寻找汽车；同样，从建筑物后面出现的汽车可能表明远处隐藏着一条小路。似乎有一个明显的动力来用一个模拟来代替这个复杂的管道
一种端到端的方法，能够对世界进行整体推理，并直接从传感器观察中预测所需的地图表示。在这项工作中，我们专注于仅从单目图像估计 BEV 地图这一特别具有挑战性的场景。鉴于 LiDAR 和雷达传感器的成本高且分辨率有限，仅从图像传感器构建地图的能力可能对开发强大的自动驾驶汽车至关重要。
虽然许多地图表示都是可能的，但我们选择使用概率占用网格框架来表示世界。占用网格图 [10] 广泛用于机器人技术，使我们能够轻松地将多个传感器和时间步长的信息结合起来。与其他地图表示不同，它们基于网格的结构也使它们非常适合卷积神经网络的处理，使我们能够利用深度学习文献中的强大发展。在这项工作中，我们将占用网格的传统定义扩展到语义占用网格 [17] 的定义，该定义对每个网格位置的对象类别的存在或不存在进行编码。然后我们的目标是预测每个语义类出现在我们的鸟瞰图中每个位置的概率。
本文的贡献如下： 1. 我们提出了一种新的密集变换层，它将基于图像的特征图映射到鸟瞰图空间。
2. 我们设计了一个深度卷积神经网络架构，其中包括在多个图像尺度上运行的变压器金字塔，以从单眼图像预测准确的鸟瞰图。
3. 我们在两个大规模自动驾驶数据集上评估我们的方法，并表明我们能够显着提高文献中领先作品的性能。
我们还定性地展示了如何使用贝叶斯语义占用网格框架来累积跨多个相机和时间步长的地图预测，以构建完整的场景模型。该方法足够快，可用于实时应用程序，在单个 GeForce RTX 2080 Ti 显卡上每秒处理 23.2 帧

2 相关工作

自动驾驶的地图表示高清鸟瞰图已被证明是跨一系列不同驾驶任务的极其强大的表示。在 3D 目标检测中，[27] 使用来自地图的地面高度先验信息来提高输入 LiDAR 点云的质量。 [18] 将视觉观察与稀疏的高清地图特征相关联，以执行高度准确的定位。鸟瞰图特别有价值考虑到度量性质的预测和规划上下文：[9] 和 [4] 将局部环境渲染为光栅化的俯视图表示，结合道路几何、车道方向和交通代理，并使用这种表示来预测未来的车辆轨迹。 [2] 使用类似的表示作为其模仿学习管道的输入，允许自主代理通过递归预测其未来状态来驱动自己。 [12] 使用来自商业 GPS 路线规划器的渲染地图视图来增强他们基于相机的端到端驾驶模型，并表明这显着提高了驾驶性能。
图像的自上而下表示许多先前的工作已经解决了直接从单眼图像预测鸟瞰图表示的难题。一种常见的方法是使用逆透视映射 (IPM) 通过单应性将前视图图像映射到地平面上 [1, 15]。 [28] 使用 GAN 来优化结果预测。其他工作侧重于鸟瞰对象检测任务，学习将 2D 边界框检测映射到自顶向下视图 [20, 26]，或直接在鸟瞰空间中预测 3D 边界框 [22]。
然而，相对较少的作品已经解决了从图像生成语义图的更具体的问题。
有些人使用上面提到的 IPM 方法将图像平面的语义分割映射到鸟瞰空间 [8, 23]，这种方法适用于估计局部道路布局，但不适用于诸如汽车和行人之类的物体。高于地平面。
[13] 利用 RGB-D 图像来学习可用于以后定位的隐式地图表示。
[17] 的 VED 方法使用变分编码器-解码器网络直接从图像预测语义占用网格。然而，在网络中使用全连接瓶颈层意味着网络中的大部分空间上下文都丢失了，导致输出相当粗糙，无法捕捉行人等小物体。 [21]采用类似的方法，通过完全连接的视图转换器模块从一堆环绕视图图像中预测鸟瞰图语义分割。 [24] 建议使用修复 CNN 来推断前景对象背后场景的语义标签和深度，并通过将生成的语义点云投影到地平面上来生成鸟瞰图。
不幸的是，鉴于缺乏可用的地面实况数据，上述许多方法被迫依赖于立体声 [17]、弱对齐地图标签 [24] 或合成到真实域转移 [24, 21] 的弱监督 . 对真实数据的培训对于安全关键系统的性能至关重要，我们相信我们是第一个使用直接监督方法这样做的人。
图2 架构图显示了我们方法的概述。 (1) ResNet-50 骨干网络以多种分辨率提取图像特征。 (2) 特征金字塔通过来自较低金字塔层的空间上下文来增强高分辨率特征。 (3) 一堆密集的变换器层将基于图像的特征映射到鸟瞰图。 (4) 自顶向下网络处理鸟瞰特征并预测最终的语义占用概率。

3 语义占用网格预测

在这项工作中，我们将世界状态表示为鸟瞰语义占用网格图。占用网格图 [10] 是一种离散随机场，其中每个空间位置 x i 都有一个关联状态 m i ，该状态可能被占用（m i = 1）或空闲（m i = 0）。在实践中，世界的真实状态是未知的，因此我们将 m i 视为一个随机变量，并以一组观察 z t 为条件估计占用概率 p(m i |z 1:t )。占用网格公式可以进一步扩展到语义占用网格的公式，其中状态 m ci 表示给定网格单元中是否存在类 c 的对象，而不是通用单元占用。这些占用是非排他性的：例如，道路、交叉路口和车辆类别可能会在同一位置共存。
传统上，在占用网格映射中，占用概率 p(m i |z t ) 是使用逆传感器模型估计的，通常是一个简单的手工工程函数，它根据传感器特性将距离传感器读数映射到占用概率。在我们的应用程序中，观察采用图像的形式，细胞占用率捕获场景的高级语义知识。因此，我们建议训练一个基于深度 CNN 的逆传感器模型 p(m ci |z t ) = f θ (z t , x i )，它学习从单个单目输入图像中预测占用概率。
因此，我们的目标是在 2D 鸟瞰图图像的每个位置预测一组多类二元标签。
这种情况与广泛研究的语义分割计算机视觉问题有许多相似之处。然而，使这项任务特别具有挑战性的是，输入和输出表示存在于完全不同的坐标系中：前者在透视图像空间中，后者在正交鸟瞰空间中。因此，我们提出了一个简单的转换器层，它利用相机几何和全连接推理将特征从图像映射到鸟瞰图空间。
我们将这个密集的变压器层作为我们深度金字塔占用网络 (PyrOccNet) 的一部分。金字塔占用网络由四个主要阶段组成。主干特征提取器从图像中生成多尺度语义和几何特征。然后将其传递给受 FPN [16] 启发的特征金字塔，该金字塔对低分辨率特征图进行上采样，以提供更高分辨率特征的上下文。一堆密集的变换器层一起将基于图像的特征映射到鸟瞰图，由自上而下的网络处理以预测最终的语义占用网格概率。该方法的概述如图 2 所示。

3.1 Losses

我们使用两个损失函数的组合来训练我们的网络。二元交叉熵损失鼓励预测的语义占用概率 p(m ci |z t ) 匹配地面实况占用率 m̂ ci 。鉴于我们的数据集包括许多小对象，例如行人、骑自行车的人和交通锥体，我们利用此损失的平衡变体，通过常数因子 α c 增加属于 c 类的单元格的权重：
公式1
然而，即使在高度不确定的情况下，神经网络也以常规预测高概率而闻名。为了鼓励网络预测已知模糊区域的高不确定性，我们引入了第二个损失，最大化预测的熵，鼓励它们接近 0.5：

公式2

我们仅将这个最大熵损失应用于网络不可见的网格单元，要么是因为它们落在图像的视野之外，要么是因为它们被完全遮挡（详见第 4.2 节）。我们忽略这些区域的交叉熵损失。总损失由两个损失函数的总和给出：

公式3

3.2 时间和传感器数据融合

贝叶斯占用网格公式提供了一种使用贝叶斯过滤方法将多个观测值和多个时间步长的信息结合起来的自然方式 [25]。考虑由具有外在矩阵 M t 的相机拍摄的图像观察 zt 。我们首先将我们的占用概率 p(m ci |zt ) 转换为对数几率表示

公式4.5.6.7

为了获得全局坐标系中的占用概率，我们使用外部矩阵 M t 将来自我们的网络的输出重新采样到全局坐标系中，即 p(mi |zt ) = f θ (zt , M t − 1 xi )。这种方法在第 5.4 节中用于组合来自一组环视摄像机的感官信息，还用于在 20 秒持续时间的观察序列中融合占用网格。

3.3 密集变压器层

占用网格预测任务的基本挑战之一是输入和输出存在于两个完全不同的坐标系中：透视图像空间和正交鸟瞰空间。为了克服这个问题，我们引入了一个简单的转换层，如图 3 所示。我们的目标是将具有 C 个通道、高度 H 和宽度 W 的图像平面特征图转换为鸟瞰平面上的特征图带有 C 通道，深度 Z 和宽度 X。

密集变换器层的灵感来自观察，虽然网络需要大量的垂直上下文来将特征映射到鸟瞰图（由于遮挡、缺乏深度信息和未知的地面拓扑），但在水平方向BEV 位置和图像位置之间的关系可以使用简单的相机几何来建立。因此，为了保留最大量的空间信息，我们将图像特征图的垂直维度和通道维度折叠到大小为 B 的瓶颈，但保留水平维度 W。然后，我们沿水平轴应用一维卷积并重塑生成的特征图，以给出尺寸为 C × Z × W的张量。然而，这个仍然在图像空间坐标中的特征图，由于透视，实际上对应于正交鸟瞰空间中的梯形，因此最后一步是使用已知的相机焦距重新采样为笛卡尔坐标系f 和水平偏移量 u 0 。

3.4 多尺度变压器金字塔

3.3 节中描述的重采样步骤包括，对于距相机距离为 z 的一行网格单元，以

公式8

其中∆ x 是网格分辨率，s 是输入特征图相对于图像的下采样因子。然而，对 s 使用常数因子是有问题的：对应于远离相机的网格单元的特征将被模糊，而那些靠近相机的将被欠采样并且可能发生混叠。因此，我们建议应用多个变换器，作用于具有下采样因子 sk = 2 k+3 , k ∈ {0, … , 4}的特征图金字塔。第 k 个转换器为深度值的子集生成特征，范围从 zk 到 zk − 1 ，其中 zk 由下式给出

公式9

表 1 给出了典型相机和网格设置的 zk 值。然后通过沿深度轴连接每个单独的转换器的输出来构建最终的鸟瞰图特征图。

这种方法的一个缺点是，在高分辨率下，特征图 H k 的高度可能变得非常大，这会导致相应的密集转换器层中的参数数量过多。然而在实践中，我们可以将特征图裁剪到一个高度

公式10

对应于世界空间中 y min 和 y max 之间的固定垂直范围。这意味着裁剪后的特征图的高度在不同尺度上大致保持不变。

特征图取自我们骨干网络中每个残差阶段的输出，从 conv3 到 conv7。为了确保高分辨率特征图仍然包含大空间上下文，我们以 [16] 的风格从较低分辨率添加上采样层。

4 实验设置

4.1 数据集

我们针对两个大规模自动驾驶数据集评估我们的方法。NuScenes 数据集 [3] 包含从波士顿和新加坡的四个位置捕获的 1000 个短视频序列。它包括从六个校准的环视摄像机捕获的图像、23 个对象类别的 3D 边界框注释和丰富的语义地图注释，其中包括车道、交通灯、人行道等的矢量化表示。从这些中，我们选择了四个地图类别的子集，这些地图类别可以从图像中进行估计，以及十个对象类别。

Argoverse 3D 数据集 [5] 由在迈阿密和匹兹堡这两个城市捕获的 65 个训练序列和 24 个验证序列组成，使用一系列传感器，包括七个环视摄像头。与 NuScenes 一样，Argoverse 数据集提供了来自 15 个对象类别的 3D 对象注释，以及语义地图信息，包括道路蒙版、车道几何形状和地面高度。我们从中选择了 7 个包含足够训练示例的对象类别，以及可驾驶的道路掩码。

由于 NuScenes 和 Argoverse 主要是对象检测而不是地图预测数据集，因此默认数据集拆分包含多个路段，这些路段出现在训练和验证拆分中。因此，我们重新分配 train/val 序列以删除任何重叠的段，注意确保位置、对象和天气条件的平衡分布。

4.2 数据生成

NuScenes 和 Argoverse 数据集以矢量化城市级地图标签和 3D 对象边界框的形式提供地面实况注释。我们首先使用数据集提供的相机外部矩阵 M t 将所有矢量注释映射到第 t 个样本的坐标系，从而将这些转换为地面实况占用图。

然后，我们将每个注释光栅化为鸟瞰图中的二值图像，该图像位于给定相机前方 50m 和两侧各 25m 的网格上，分辨率为每像素 25cm。对于对象注释的情况，我们首先将 3D 边界框投影到 xz 平面上以获得 2D 多边形。这个过程的结果是一堆二值图像，它们代表了从相机 t 观察到的每个语义类别 c 的真实占用率。

然而，由此产生的标签代表了网络几乎不可能完成的任务，因为一些网格单元位置位于相机视野 (FoV) 之外或被其他物体完全遮挡。因此，我们生成一个额外的二进制掩码，指示每个网格单元是否可见。如果一个细胞在 FoV 内并且至少有一条 LiDAR 射线穿过它（即没有被更近的物体阻挡），则该细胞被视为可见。

4.3 基线

已发表的方法为了证明我们方法的有效性，我们与两个先前发表的作品进行了比较：Lu 等人的 Variational Encoder-Decoder (VED)。[17]，以及 Pan 等人的视图解析网络 (VPN)。[21]。这些网络假定不同的输入和输出维度，因此我们在补充材料的 A 部分中进行了细微的架构更改。

逆透视映射 (IPM) 我们提出了一个简单的基线，其灵感来自于通过单应性将基于图像的语义分割映射到地平面的其他工作 [8, 23]。图像级分割是使用最先进的 DeepLabv3 [6] 网络计算的，该网络在 Cityscapes [7] 上进行了预训练，该网络与 NuScenes 和 Argoverse 共享许多类。在 NuScenes 的情况下，通过将平面拟合到 LiDAR 点或使用 Argoverse 提供的预先计算的地面高度来获得地平面。请注意，此信息在测试时无法用于真正的单目系统，从而使该基线更具竞争力。

基于深度的反投影此问题的另一个直观解决方案是使用单目深度估计器从图像生成 3D 点云，然后放下 z 轴以将基于图像的语义标签转移到地平面上。作为此类方法性能的上限，我们使用纽约大学深度数据集 [19, 14] 中采用的算法通过增密 LiDAR 点计算的地面实况深度。我们使用与以前相同的 DeepLabv3 来预测图像级标签。

4.4 架构和训练细节

对于我们网络的主干和特征金字塔组件，我们使用预训练的 FPN 网络 [16]，其中包含一个 ResNet-50 [11] 前端。自上而下的网络由 8 个残差块的堆栈组成，包括一个转置卷积层，它对鸟瞰图特征从每像素 0.5m 到 0.25m 的分辨率进行上采样。对于平衡损失加权α c ，我们使用逆类频率的平方根，因为我们发现使用逆频率直接导致对小类的过度预测的倾向。不确定性损失权重λ取为 0.001。我们使用 SGD 训练所有网络直到收敛，学习率为 0.1，批量大小为 12，动量为 0.9。

4.5 评价

我们的主要评估指标是联合交叉点 (IoU) 分数，我们通过根据贝叶斯决策边界 (p(m ci |zt ) > 0.5) 对预测进行二值化来计算该分数。为了说明这个阈值的任意性，我们还提供了精确召回曲线作为补充材料的一部分。不可见的网格单元（参见第 4.2 节）在评估期间被忽略。

5 结果

5.1 消融研究

在与其他方法进行比较之前，我们通过对 Argoverse 数据集进行消融研究来验证我们对架构的选择。我们从一个简单的基线开始，包括主干网络、将特征几何映射到鸟瞰图的逆透视映射，以及用于预测最终占用概率的 sigmoid 层。然后，我们逐步重新引入我们方法的每个关键组件：密集变压器层 (D)、变压器金字塔§和自顶向下网络 (T)。

该消融研究的结果显示在表 2 的后半部分。每个连续组件都通过大约 1% 平均 IoU 的一致因素提高性能，添加密集变压器对结果有特别显着的影响，其中我们认为是我们方法的主要创新之一。自顶向下网络对可行驶区域等大类没有优势，但显着提高了小型、稀有类（例如摩托车和自行车）的性能。

5.2 与其他方法的比较

除了上述消融实验之外，我们还根据第 4.3 节中描述的许多基线方法评估了我们的最终架构。从表 2 中可以看出，我们的性能明显优于之前的所有方法。两个先前的工作，VPN 和 VED，在可驾驶区域类别（代表路面）上实现了可比的 IoU，但在车辆、行人等较小的类别中，我们能够获得更好的结果。我们认为这种改进的原因是，与 [17] 和 [21] 的完全连接的瓶颈相比，我们的密集转换器层保留了更多的空间信息。这一假设得到了图 4 中所示定性结果的支持，这表明我们的方法更能解决细节问题，例如单个汽车（第 1 行和第 2 行）或人群（第 3 行）之间的间隔。另一方面，VPN 和特别是 VED 只能进行相对粗略的预测，并且经常错过重要特征，例如第 3 行中的汽车。 IPM 基线在可驾驶区域类别上实现了相当不错的性能，但在所有其他类别上都失败了因为预测沿着相机光线被拉长，从图 4 中可以看出。深度反投影方法的成功同时受到激光雷达点云的固有稀疏性超过约 25m 的范围的限制。

5.3 对 NuScenes 数据集的评估

在相对较小的 Agoverse 数据集上证明我们的方法是合理的后，我们转向了 NuScenes 数据集更具挑战性的评估场景。我们在表 3 中报告了定量结果，并在图 5 中可视化了我们的预测。尽管该数据集具有更大的多样性，但我们能够以 9.1% 的相对因子胜过次佳方法，即 [21] 的 VPN 方法. 与 Argoverse 一样，我们的方法始终能够捕捉到场景中更精细的细节，例如第 2 行中公交车的形状和第 3 行中十字路口的几何形状。在此数据集上，VED 方法完全分解为案例小型（行人、骑自行车者等）或不常出现（工程车辆、公共汽车）的班级。

5.4 时间和传感器融合

如第 5.3 节和第 5.2 节所述，从单个视点预测 BEV 地图通常不足以满足驾驶目的；通常，我们希望在考虑多个传感器和历史信息的情况下构建环境的完整图片。在图 1 中，我们展示了一个示例，说明如何使用 3.2 节中描述的贝叶斯融合方案组合来自六个环视摄像机的占用网格。我们假设所有类别的先验概率 p(m ci ) = 0.5。

对于场景的静态元素，例如道路、人行道等，我们可以更进一步，通过结合多个时间步长的预测来构建给定场景的完整几何模型。图 6 显示了从 NuScenes 数据集累积超过 20 秒长序列的占用概率的几个示例。该网络能够利用来自多个视图的信息来解决歧义，从而实现更平滑的整体预测。

6 结论

我们提出了一种直接从单目图像预测鸟瞰图的新方法。我们的方法通过结合密集的变换器层来改进最先进的技术，这些变换器层利用相机几何结构将基于图像的特征扭曲到鸟瞰图，作为多尺度变换器金字塔的一部分。除了从单个图像预测地图外，我们的方法还能够毫不费力地将多个视图中的信息结合起来，以构建一个详尽的周围环境模型。

我们相信这项工作为未来在鸟瞰图中运行的其他任务提供了一个广泛的框架，例如车道实例检测和未来预测。

zzzzz忠杰

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Predicting Semantic Map Representations from Images using Pyramid Occupancy Networks 翻译

自动驾驶汽车通常依赖于其环境的高度详细的鸟瞰图，该地图捕捉场景的静态元素（如道路布局）以及动态元素（如其他汽车和行人）。动态生成这些地图表示是一个复杂的多阶段过程，其中包含许多重要的基于视觉的元素，包括地平面估计、道路分割和 3D 对象检测。在这项工作中，我们提出了一种简单、统一的方法，用于使用单个端到端深度学习架构直接从单目图像估计地图。对于地图本身，我们采用语义贝叶斯占用网格框架，允许我们在多个摄像机和时间步长上轻松积累信息。我们通过对 NuScenes 和 Argoverse 数据集上的几个具
复制链接

扫一扫

专栏目录