Translation image into map 翻译

摘要

我们将瞬时映射,将图像转换为自上而下的世界视图,作为一个翻译问题。我们展示了一种新型的变压器网络如何在单端到端网络中,将图像和视频直接映射到世界的高架地图或鸟瞰图(BEV)。我们假设图像中的垂直扫描线与头顶地图中通过相机位置的光线之间存在1-1对应关系。这使我们能够将从图像生成的地图表示为一组序列到序列转换。将问题设为翻译允许网络在解释每个像素的角色时使用图像的上下文。这种基于问题的强物理基础的受限公式,导致仅在水平方向卷积的受限变压器网络。该结构使我们能够在训练时有效地利用数据,并获得三个大规模数据集瞬时映射的最新结果,包括与nuScenes和Argoverse数据集上现有最佳执行方法相比,分别获得15%和30%的相对增益。

引言

从自上而下、地图或鸟瞰图(BEV)上看,自主驾驶中的许多任务都非常简单。由于许多自治代理仅限于地平面,因此头顶地图是一种方便的低维表示,非常适合导航,可捕获相关障碍物和危险。对于自动驾驶等场景,必须动态生成语义分段的BEV地图作为瞬时估计,以处理仅访问一次的自由移动对象和场景。
从图像推断BEV地图需要确定图像元素及其在世界上的位置之间的对应关系。多部作品通过密集的深度和图像分割图[1]-[5]指导他们的转换,而其他作品[6]-[10]已经开发出隐式解析深度和语义的方法。尽管有些人利用了相机的几何先验[8]–[10],但他们没有明确了解图像元素和BEV平面之间的相互作用。
与以前的方法不同,我们将转换为BEV视为图像到世界的转换问题,目标是学习图像中垂直扫描线与BEV中极射线之间的对齐。因此,投影几何体对于网络是隐式的。对于我们的对齐模型,我们采用transformers[11],一种用于序列预测的基于注意的架构。利用其注意机制,我们明确地模拟了图像中垂直扫描线与其极性BEV之间的成对相互作用预测。变换器非常适合图像toBEV变换问题,因为它们可以推理对象、深度和场景照明之间的相互依赖关系,以实现全局一致的表示。
我们将基于变换器的对齐模型嵌入到端到端的学习公式中,该公式将单目图像及其内在矩阵作为输入,并预测静态和动态类的语义BEV映射。
本文的贡献在于:(1)我们将从图像生成一个BEV映射作为一组一维序列到序列的转换。(2) 通过将我们的公式物理地接地,我们构建了一个受限的数据高效变压器网络,该网络相对于水平x轴卷积,但具有空间感知。(3) 通过将我们的公式与来自语言领域的单调注意相结合,我们表明,对于精确映射而言,图像中低于某一点的知识比高于该点的知识更为重要;尽管使用这两种方法可以获得最佳性能。
(4) 我们展示了轴向注意如何通过提供时间感知来提高性能,并展示了三个大规模数据集的最新结果。

相关工作

BEV目标检测:早期方法检测图像中的目标,然后回归3D姿势参数[12]–[17]。Mono3D[18]模型在地平面上生成3D边界框方案,并通过投影到图像中对每个方案进行评分。然而,所有这些作品都缺乏3D中的全局场景推理,因为每个方案都是独立生成的。OFTNet[19]通过将三维体素网格投影到图像中生成三维特征,并对这些特征执行三维对象检测,从而克服了这一问题。虽然它直接在BEV中进行推理,但每个体素可用的上下文取决于其与摄影机的距离,相反,我们将此关系解耦,以允许每个BEV位置访问图像的整个垂直轴。
推断语义BEV映射:BEV对象检测已扩展到从静态和动态对象的图像构建语义映射。道路布局估计的早期工作[1]在图像平面中执行语义分割,并假设平面世界通过单应映射到地平面。然而,由于平坦世界假设会导致汽车和行人等动态对象出现伪影,其他人[3]–[5]利用深度和语义分割贴图将对象提升到BEV中。虽然这种中间表示提供了很强的优先级,但它们需要图像深度和分割贴图作为附加输入。
相反,有几部作品对语义和深度进行了含蓄的推理。有些使用摄影机几何体来变换图像转化为BEV[8]–[10],而其他人则隐含地学习了这种转化[2]、[6]、[7]。当前最先进的方法可归类为对转换采取“压缩”[8]、[10]或“提升”方法[9]、[20]“压缩”方法将图像特征垂直压缩为瓶颈表示,然后扩展为BEV,从而在对象深度和可用上下文之间创建隐式关系。这就增加了它忽略远处小物体的敏感性。”“提升”方法将每个图像扩展为一个特征截锥体,以了解每个像素的深度分布。但是,每个像素都作为上下文提供给整个图像,这可能会由于图像中的冗余而增加过度拟合。此外,这两种方法都没有空间意识,这意味着它们无法利用城市场景的结构化环境。我们克服了这两种方法的问题:(1)保持图像的空间结构,以明确建模其与BEV平面的对齐;(2)增加空间感知,允许网络基于内容和位置跨光线空间分配图像上下文。
编码器-解码器转换器:Bahdanau等人[21]首次提出注意机制,用于机器翻译,使用递归神经网络(RNN)学习源序列和目标序列之间的对齐。Vaswani等人[11]引入的变压器在一个完全前馈的网络中实现了注意力,从而在许多任务中实现了最先进的性能[22],[23]。
与我们一样,2D检测器DETR[24]通过注意在空间域中执行解码。然而,它们的预测输出序列是一组对象检测,它们没有内在的顺序,并且允许在没有任何空间感知的情况下使用注意的排列不变性质。
相比之下,我们预测的BEV射线序列的顺序本质上是空间的,因此我们需要空间感知,因此在解码中需要置换等变。

方法

我们的目标是学习一个模型Φ,它获取一个单目图像I并生成场景Y的语义分割鸟瞰图∈ r3×H×W及其本征矩阵C∈ r3×3,我们的模型预测一组二元变量yk∈ 每类k的rx×Z∈ K:
公式1
其中Φ是一个训练用于解决语义和位置不确定性的神经网络。
我们的网络设计基于我们在图像平面pi和BEV平面P-BEV之间的新颖转换。如图1a所示,我们的端到端方法由以下子任务组成:(1)在图像平面中构造表示,对语义和一些深度知识进行编码,(2)将图像平面表示转换为BEV,以及(3)对BEV表示进行语义分割。
A图像到BEV转换
从图像转换为BEV需要一个映射,该映射确定图像像素与BEV极轴光线的对应关系。由于摄影机几何体指示每个垂直扫描线及其关联光线之间的1-1对应关系,因此我们将贴图视为一组序列到序列的平移。
参考图1b,我们希望找到图像垂直扫描线中元素的离散化径向深度,距离相机r米:我们有一个图像列S I∈ rh,我们要求它的BEV射线Sφ(BEV)∈ R R,其中H是柱的高度,R表示与摄影机的径向距离。这种映射可以看作是将语义对象从图像平面沿BEV平面中的光线指定到它们的位置槽。
我们建议通过注意机制学习输入扫描线和输出极射线之间的对齐[21]。
我们以两种方式使用注意:(1)如图1b所示的平面间注意,它最初将特征从扫描线分配给射线;(2)极轴射线自我注意,它全局地解释其在射线上的位置分配。我们从平面间的注意力开始,在下面激发两种用途。
面间注意:考虑语义分割图像列及其对应的极BEV地面真理。
这里,列和地面真实光线之间的对齐是“硬的”,即极轴光线中的每个像素对应于图像列中的单个语义类别。因此,唯一必须解决的不确定性是每个像素的深度,以使其成为硬分配。然而,在进行此分配时,我们需要分配有助于解析语义和深度的特性。因此,艰巨的任务将是有害的。相反,我们需要软对齐,其中极轴光线中的每个像素都被指定为图像列中元素的组合,即上下文向量。具体地说,φ(BEV)在生成每个径向元素si时,我们希望基于图像列si中元素的凸组合和φ(BEV)元素si沿极射线的径向位置ri为其提供一个上下文ci。这种对上下文分配的需求促使我们在图像列与其极轴光线之间使用软注意,如图1所示。
正式地说,让h∈ rh×C表示高度为H的图像列的编码“内存”,并设y∈ R×C表示一个位置查询,它沿长度为R的极射线对相对位置进行编码。我们通过输入序列中元素与其径向位置之间的对齐α,基于输入序列h和查询y生成上下文c。首先,通过矩阵wq投影输入序列h和位置查询q∈ rc×D和wk∈ R C×D对应于表示式Q和K:
公式2
按照通用术语,我们将Q和K分别称为“查询”和“键”。投影后,使用缩放点积[11]在每个内存查询组合之间生成非规范化对齐分数ei,j:
公式3
然后使用softmax对能量标量进行归一化,以在内存上生成概率分布:
公式4、5
以这种方式生成上下文允许每个径向槽ri独立地从图像列收集相关信息;并表示从图像到其BEV位置的组件的初始分配。这种初始分配类似于根据像素的深度提升像素。
然而,它被提升到一个深度分布,因此应该能够克服稀疏和细长物体截头台的常见缺陷。这意味着每个径向槽可用的图像上下文与其到摄影机的距离φ(BEV)解耦。最后,为了在径向位置ri生成BEV特征S i,我们对所有径向位置c={c 1,…,c r}的指定上下文进行全局操作:
公式6
式中,g(.)是一个非线性函数,用于对整个极射线进行推理。我们在下面描述它的作用。
极射线自我注意:非线性函数g(.)作为全局运算符的需要源于独立生成每个上下文向量c i所带来的限制。由于没有对每个上下文ci进行全局推理,因此光线中特征的空间分布不太可能与对象形状(局部或全局)一致。相反,此分布可能仅表示对象零件位置的分散建议。因此,我们需要在整个光线中进行全局操作,以允许指定的扫描线特征对其在整个光线上下文中的位置进行推理,从而以生成一致对象形状的方式聚集信息。
跨越极轴光线的全局计算与等式(2)-(5)中概述的软注意非常相似,只是自我注意仅应用于光线。公式(2)用一组新的权重矩阵重新计算,两个方程的输入均替换为上下文向量ci。
扩展到变压器:我们的平面间注意可以扩展到变压器的编码器-解码器之间的注意,方法是将等式(5)中的键K(hj)替换为内存h的另一个投影,即“值”。类似地,极性光线自我注意可以通过将等式(5)中的键替换为上下文c i的投影来表示该值,从而放置在转换器解码器中。
B无限回望单调注意
虽然软注意足以学习任意一对源-目标序列之间的对齐,但我们的序列存在于物理世界中,在物理世界中对齐显示基于其空间顺序的物理特性。通常,在城市环境中,深度随高度单调增加,也就是说,当你向上移动图像时,你会离相机更远。我们通过具有无限回望的单调注意来实现这一点[25]。这将限制径向深度间隔,以观察高度单调增加的图像列元素,但也允许从列的底部(或等效地,以前的内存条目)查看上下文。
单调注意(MA)最初被用于计算同步机器翻译的对齐[26]。然而,源序列和目标序列之间的“硬”分配意味着忽略了重要的上下文。这导致了具有无限回望(MAIL)[25]、[27]、[28]的MA的发展,它将硬MA与软注意相结合,软注意从硬分配延伸到源序列的开始。我们采用邮件作为约束注意力机制的一种方式,通过忽略图像垂直扫描线中的冗余上下文来潜在地防止过度拟合。我们采用邮件的主要目的是了解图像中某个点下方的上下文是否比上面的上下文更有用。
我们使用邮件,首先使用单调注意计算硬对齐。这使得上下文ci被硬分配给记忆hj的一个元素,之后软注意机制将覆盖先前的记忆条目h1,…,hj−1适用。形式上,对于每个径向位置y i∈ y沿极轴射线,解码器开始扫描索引j=ti中的内存条目−1,其中ti是为位置yi选择的存储器条目的索引。对于每个内存条目,它产生一个选择概率pi,j,它对应于停止并设置ti=j和ci=hti,或移动到下一个内存条目j+1的概率。
由于硬作业是不可区分的,因此培训是可替代的根据c i的预期值进行,单调对齐αi,j计算如下:
公式7、8
其中,能量函数的计算方式与式(3)相同。假设单调注意力在ti处停止,无限回望策略首先使用方程k的等式3计算能量ei,k∈ 1,2,…,t我。允许状态下的注意力分布计算如下:
公式9
这有效地表示位于图像中的点下方的图像元素上的分布;要仅计算图像中某个点上方的分布,可以翻转图像列。上下文向量P H的计算类似于平面间注意,其中ci=

模型架构

我们构建了一个架构,该架构有助于我们的目标,即围绕该对齐模型从单目图像预测语义BEV图。如图1所示,它包含三个主要组件:一个标准CNN主干,用于提取图像平面中的空间特征;一个编码器-解码器转换器,用于将图像平面中的特征转换为BEV;最后一个分割网络,用于将BEV特征解码为语义图。
PI中的2D多尺度特征学习:在BEV中重建图像需要能够检测不同深度和比例的场景元素的表示。与之前的目标检测方法[8]、[10]、[29]一样,我们使用带有特征金字塔的CNN主干来处理这种尺度变化,以生成I特征映射f t、s∈ 多尺度下的rc×hs×ws∈ U
PI中的1D变压器编码器:该组件通过自我注意,使用编码器对每个特征比例u(图1a左二块)对输入特征的长距离垂直相关性进行编码。特征I f t,u的每个尺度首先被重塑为其单独的列,创建长度为h u和尺寸为C的w u序列。每个编码器层都有一个标准架构,由多头部注意和前馈网络组成。考虑到变压器的排列不变性,我们将固定的一维正弦位置编码[11]添加到每个注意层的输入中。
每个U编码器产生一个存储器h It,U∈ rwu×hu×C。
P BEV中的1D Transformer解码器:该组件通过编码器内存中的多头注意沿极射线生成独立的BEV特征序列。如图1的左第二块所示,每个变压器编码器有一个变压器解码器。每个编码图像列h I∈ 将R h u×C变换为BEV极射线fφ(BEV)∈ ru×C,其中ru是沿射线的径向距离。给定所需的长度为ru的输出序列,解码器接受ru位置嵌入,我们称之为位置查询。这些是带有固定正弦位置信息的RU唯一嵌入,就像上面的编码器一样。当将编码器-解码器多头部软注意替换为单调注意时,解码器中的每个头部替换为等式(8)中的单调注意头部。每个U解码器沿极轴射线输出长度为RU的w U BEV序列,产生极轴编码fφ(BEV)∈ rwu×ru×C。与之前从图像[30]、[31]构建stixel表示的工作类似,我们模型中的每个图像列对应于极坐标图中的一个角坐标。最后,我们沿着光线连接以获得单个二维极性特征贴图,并将其转换为直线栅格,以创建我们的BEV表示f t BEV∈ rc×Z×X。
我们的transformer编码器和解码器对每个序列到序列的转换使用相同的投影矩阵集,使其具有沿x轴卷积的结构,并允许我们在训练时有效地利用数据。
我们将翻译限制为一维序列,而不是使用整个图像来简化学习,这是我们在第IV-a节中分析的决定。
极轴自适应上下文分配:到目前为止,应用于转换器的位置编码都是1D。
虽然这允许我们的卷积变换器利用图像中高度和深度之间的空间关系,但它仍然与极角无关。然而,角度域在城市环境中起着重要作用。例如,图像显示对象类在其宽度上的广泛结构分布(例如,行人通常仅在人行道上看到,人行道朝向图像的边缘)。
此外,对象外观也沿图像的宽度构造,因为它们通常沿正交轴定向,并且观察角度会改变其外观。
为了解释图像中外观和分布的这种变化,我们通过在一维扫描线到射线的平移中编码极角来添加额外的位置信息。
P BEV中的轴向注意动力学:该组件结合了来自过去估计的时间信息,以构建当前的时空BEV表示。
由于先前组件构建的表示完全是空间的,因此我们添加了一个基于轴向注意的简单组件,以使模型具有时间感知。该可选模块的位置如图1a所示。
我们获得了多个时间步的BEV特征,创建了一个F1:t的BEV表示∈ rt×C×Z×X。我们在空间轴和时间轴上应用轴向注意,在每个时间步给每个像素一个来自其他时间步的轴向上下文。我们的时间聚合意味着任何时间步的特性现在都包含整个序列的动态,并且模块可以在其向前传递中使用这些特性中的任何一个。此模块是可选的,因为它构建了时空表示。在构造纯粹的空间模型时,可以省略它。
P BEV中的分段:为了将我们的BEV特征解码为语义占用网格,我们采用了先前分段网络中使用的卷积编码器结构[10],[32]。聚合模块结构(图1a的右块)采用BEV特征f t BEV∈ R C×Z×X和m BEV∈ R类×xU×ZU,用于刻度u∈ U将t,u从我们的变换器的一维注意机制移动到卷积的二维位置提供了横穿水平x轴的上下文推理,这有助于将相邻极射线之间的潜在不连续性缝合在一起,并随后进行直线重采样。
P BEV中的损失:由于提供给预测占用网格的训练信号必须解决语义和位置不确定性,我们使用与[10]相同的多尺度骰子损失。在每个刻度u处,K类的平均骰子损失为:
公式10
式中,y i k是基本真值二进制变量网格单元,ŷi k是网络的预测sigmoid输出,是用于防止被零除的常数。
实验结果
我们在nuScenes数据集上评估了将图像转换为BEV转换作为翻译问题的有效性[33];通过对单调注意中回望方向的消除,长期水平上下文的效用和极性位置信息的影响。最后,我们在nuScenes[33]、Argoverse[34]和Lyft[35]数据集上将我们的方法与当前最先进的方法进行了比较。
数据集:nuScenes数据集[33]由跨越波士顿和新加坡捕获的1000个20秒片段组成,用3D边界框和矢量化路线图进行注释。我们遵循[8]的数据生成过程、对象类和培训/验证划分,以进行公平比较。我们使用nuScenes进行消融研究,因为它相当大,包含更多的对象类别。
实现:我们的前端使用预训练的ResNet50[36],顶部有一个功能金字塔[37]。由transformer解码器构建的BEV特征图具有100×100像素的分辨率,每个像素代表世界上0.5m 2的分辨率。我们的时空模型采用4幅图像的6Hz序列,其中最后一帧是我们进行预测的时间步长。我们最大规模的输出是100×100像素,我们将样本增加到200×200,以便与文献进行公平评估。我们使用Adam优化器对网络进行端到端培训,批量大小为8,初始学习率为5e−5,我们在40个时代中,每个时代衰减0.99。
A消融研究
往哪个方向看?在表II(顶部)中,我们比较了软注意(双向看)、单调注意和向后看图像底部(向下看)以及单调注意和向后看图像顶部(向上看)。结果表明,从图像中的某个点向下看比向上看要好。
这与人类如何在城市环境中确定物体的距离是一致的——我们利用物体与地平面相交的地方,以及局部纹理的比例线索。结果还表明,向两个方向看进一步提高了准确性,使深度推理更具辨别力。
长距离水平相关性:由于我们的图像toBEV转换是作为一组1D序列到序列的转换来执行的,所以自然的问题是当整个图像被转换为BEV时会发生什么(类似于“提升”方法[9],[20])。考虑到生成注意力地图所需的二次计算时间和内存,这是非常昂贵的。然而,我们可以通过在变换之前对图像平面特征应用水平轴向注意来近似使用整个图像的上下文好处。通过对图像行的轴向关注,垂直扫描线中的像素现在具有长范围的水平上下文,之后,我们通过在1D序列之间进行转换,像以前一样提供长范围的垂直上下文。
表二(中)显示,纳入长期水平背景对模型没有好处,其影响也有轻微的不利影响。这意味着两件事。首先,每个变换的光线不需要来自输入图像整个宽度的信息,或者更确切地说,与已经通过前端卷积聚合的上下文相比,远程上下文不提供任何额外的好处。这表明使用整个图像执行转换不会比基线的约束公式增加模型精度。最后,水平-轴向注意的引入导致的性能下降可能是使用图像宽度序列的注意训练困难的一个标志;我们应该预计,使用整个图像作为输入序列将更难训练。
极地不可知与极地自适应变压器:表II(底部)将极地不可知(Po Ag)变压器与极地自适应(Po Ad)变压器进行了比较。Po Ag模型没有极性位置信息,图像平面中的Po Ad涉及添加到变换器编码器的极性编码,而对于BEV平面,此信息添加到解码器。与不可知论模型相比,向任何一个平面添加极轴编码提供了类似的好处,其中动态类增加最多。将其添加到两个平面会进一步增加这一点,但对静态类的影响最大。
基线:我们与一些现有的最先进的方法进行比较。我们使用[8]中的列/值拆分,开始比较nuScenes和Argoverse上的“压缩”方法[8]、[10]。然后,我们将其与nuScenes和Lyft的[9]、[20]中的“提升”方法进行比较。
在表一中,我们的空间模型优于STA-S[10]目前最先进的压缩方法,平均相对改善15%。尤其是较小的动力等级,我们表现出了显著的改进,公共汽车、卡车、拖车和护栏都以相对35-45%的速度增长。图2中的定性结果支持了这一点,其中我们的模型显示出与基本事实更大的结构相似性和更好的形状感。这种差异可以部分归因于压缩中使用的完全连接层(FCL):当检测到远处的小对象时,图像的很大一部分是冗余上下文。期望FCL的权重忽略冗余以仅保持瓶颈中的小对象是一个挑战。此外,行人等物体通常被车辆部分遮挡。在这种情况下,FCL倾向于忽略行人,而是保持车辆的语义。
在这里,注意力方法显示了它的优势,因为每个径向深度可以独立地关注图像-因此,进一步的深度可以看到行人的可见身体,而之前的深度可以关注车辆。我们在表III中的Argoverse数据集上的结果显示了类似的模式,我们将PON[8]提高了30%。
在表IV和表V中,我们在nuScenes和Lyft上的表现优于LSS[9]和Firey[20](Firey[20]使用了[9]中的“提升”方法)。在Lyft上进行真正的比较是不可能的,因为它没有标准的train/val分割,并且我们无法获得[9]使用的那些。虽然我们使用了与[9]相似大小的分割,但确切的场景还是未知的。“提升”方法与我们的翻译方法有一些相似之处,即网络能够选择如何在其极轴光线上分布图像上下文,这里的性能差异可能归因于我们在扫描线和光线之间受限的、空间感知的转换。

结论

我们提出了一种利用变压器网络将图像和视频序列映射到高架地图或鸟瞰世界的新方法。我们将我们的物理基础和约束公式与烧蚀研究相结合,利用单调注意的进展来证实我们的直觉对于这种形式的地图生成,点上方还是下方的上下文更为重要。我们的新公式获得了三个成熟数据集瞬时映射的最新结果。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值