Gen-LaneNet 论文翻译

摘要

我们提出了一种通用且可扩展的方法,称为GenLaneNet,用于从单个图像中检测3D车道。该方法受到最先进的3D- lanenet的启发,是一个统一的框架,在单个网络中解决图像编码,特征空间变换和3D车道预测。然而,我们为Gen-LaneNet提出了独特的设计。折叠成两层。首先,我们在新的坐标系中引入了一种新的几何导向的lane anchor表示,并应用特定的几何变换从网络输出中直接计算出真实的三维车道点。我们证明了将车道点与新坐标框架中的底层顶视图特征对齐对于处理不熟悉场景的通用方法至关重要。其次,我们提出了一个可扩展的两阶段框架,将图像分割子网和几何编码子网的学习解耦。与3D- lanenet相比,拟议的Gen-LaneNet大幅减少了在实际应用中实现强大解决方案所需的3D车道标签数量。此外,我们发布了一个新的合成数据集及其构建策略,以鼓励开发和评估三维车道检测方法。在实验中,我们进行了广泛的烧蚀研究,以证实所提出的Gen-LaneNet在平均精度(AP)和F-measure方面明显优于3D-LaneNet。
Keywords: 三维车道检测,几何导向锚,两级框架,单目摄像机,统一网络

1 引言

在过去的几年里,自动驾驶引起了学术界和工业界的广泛关注。如何实时准确地感知车道结构是安全驾驶的根本问题之一。当前车道和附近车道的鲁棒检测不仅对车辆横向控制和准确定位至关重要[14],也是构建和验证高清地图的有力工具[8]。大多数基于图像的车道检测方法将车道检测视为2D任务[1,4,21]。典型的二维车道检测管道由三个部分组成:语义分割组件,它为图像中的每个像素分配一个类标签,以表明它是否属于车道;用于将图像分割输出投影到平坦地平面的空间变换组件;第三部分是提取车道,这通常涉及到具有强假设的车道模型拟合。,拟合二次曲线。通过假设世界是平坦的,在平坦的地面平面中表示的2D车道可能是自我-车辆坐标系中3D车道的可接受近似值。然而,这种假设可能会导致意想不到的问题,如[6,2]所研究的那样。例如,当自动驾驶车辆遇到丘陵道路时,由于二维平面几何结构提供了不正确的三维道路感知,因此可能会发生意外的驾驶行为。
在这里插入图片描述

为了克服平面道路假设的缺点,最新的方法趋势[5,19,2,6]已经开始关注于感知复杂的三维车道结构。具体而言,最新的3D- lanenet[6]引入了一个端到端的框架,统一了图像编码、图像视图和俯视图之间的空间变换以及在单个网络中提取3D曲线。3D- lanenet显示了从单目相机检测3D车道的有希望的结果。然而,在不合适的空间中表示车道锚点使得3DLaneNet无法推广到未观察到的场景,而端到端学习框架使其受到视觉变化的高度影响。

在本文中,我们提出了Gen-LaneNet1,一种从单幅图像中检测三维车道的通用和可扩展的方法。我们在新的坐标系中引入了一种新的几何导向车道锚表示设计,并应用特定的几何变换从网络输出中直接计算出真实的三维车道点。原则上,我们的锚点设计是对3D-LaneNet锚点的直观扩展,但在适当的坐标框架中表示车道锚点对于泛化至关重要。我们证明,将锚坐标与底层顶视图特征对齐,本质上将整个场景的全局编码分解为局部补丁级别。从而使该方法在处理陌生场景时具有更强的鲁棒性。此外,我们提出了一个多尺度的两阶段框架允许独立学习图像分割子网络和几何编码子网络,大大减少学习所需的3D标签数量。受益于更实惠的2D数据,当昂贵的3D标签仅限于某些视觉变化时,两阶段框架优于端到端学习框架。此外,我们还提供了一个具有丰富视觉变化的高度逼真的图像合成数据集,为三维车道检测的开发和评估提供服务。最后,在实验中,我们进行了广泛的烧蚀研究,以证实所提出的Gen-LaneNet在AP和F-measure方面明显优于现有技术[6],在一些测试集中高达13%。

2 相关工作

人们提出了各种技术来解决车道检测问题。在卷积神经网络(CNN)有效性的推动下,近年来在改进二维车道检测方面取得了许多进展。先前的一些方法侧重于提高车道分割的准确性[7,10,13,18,25,26,17,21,9],而其他方法则试图提高统一网络中的分割和曲线提取[16,22]。进一步开发了更精细的网络架构,将二维车道检测和随后的道路平面投影统一为端到端的学习网络架构[15,12,7,20,3]。然而,正如第1节所讨论的,所有这些二维车道检测器都受到特定平面世界假设的影响。事实上,即使是完美的2D车道也远不足以在3D空间中实现准确的车道位置。
作为一种更好的替代方案,三维车道检测方法不假设平面道路,从而提供更可靠的道路感知。然而,3D车道检测更具挑战性,因为3D信息通常无法从单个图像中恢复。因此,现有的方法相当有限,通常基于多传感器或多视角摄像机设置[5,19,2],而不是单目摄像机。[2]利用激光雷达和摄像头传感器来检测现实世界中的车道。但是激光雷达的高成本和高数据稀疏性限制了它的实际应用。,有效探测距离为48米[2])。[5,19]采用更经济实惠的立体相机来进行3D车道检测,但它们也存在距离内3D信息精度低的问题。
目前最先进的3D- lanenet[6]可以从单个图像中预测3D车道。首次尝试将图像编码、特征空间变换和三维曲线提取统一在一个网络中解决三维车道检测问题。该算法采用端到端学习的方法实现,网络分两条路径处理信息:图像视图路径处理并保留图像信息,俯视图路径处理俯视图中的特征输出三维车道估计。图像视图路径特征通过四个投影转换层传递到顶视图路径,这四个层在概念上建立在空间转换网络上[11]。最后,将俯视图路径特征输入到车道预测头中进行三维车道点预测。具体地说,已经开发了通道的锚表示来实现车道预测头,以折线的形式估计3D车道。3D- lanenet在频繁观测场景和常见成像条件下恢复车道的3D结构方面显示出良好的效果,然而,由于两个主要缺点,其实用性受到质疑。
在这里插入图片描述
首先,3D-LaneNet在锚点表示中使用了不合适的坐标框架来表示车道点,其中车道点的地面真值与视觉特征不一致。这在山路场景中最为明显,在虚拟顶视图中,平行车道的投影看起来不平行,如图2的顶部所示。然而,地面真实车道(蓝线)的坐标与底层视觉特征(白色车道标记)不一致。学习一个模型来对抗这种“腐败”的基本事实,可能会迫使模型排序对整个场景进行全局编码。这种全局编码行为反过来可能导致模型无法推广到与现有训练数据部分不同的新场景。
其次,基于端到端学习的框架确实使几何编码不可避免地受到图像外观变化的影响,因为它将三维几何推理与图像编码紧密地结合在一起。因此,3DLaneNet可能需要成倍增加的训练数据量,以便在其他交通参与者遮挡的情况下,在白天和夜晚不同的照明条件或不同的天气条件下推理相同的3D几何形状。不幸的是,在图像中标记3D车道比标记2D车道要昂贵得多。它通常需要建立在昂贵的多个传感器(LiDAR,摄像头等)上的高清地图,精确的定位和在线校准,甚至昂贵的传感器数据在3D空间中手动校准,以产生正确的地面真相。这进一步阻碍了3D-LaneNet在现实世界中的实用性。

3 Gen-LaneNet

受3D- lanenet[6]的成功及其在第2节中讨论的缺点的激励,我们提出了Gen-LaneNet,一种用于3D车道检测的通用且可扩展的框架。与3D- lanenet相比,Gen-LaneNet仍然是在单一网络中解决图像编码、特征空间变换、三维曲线提取的统一框架。但它涉及两个方面的主要区别:车道锚设计的几何扩展和可扩展的两阶段网络,该网络将图像编码和3D几何推理的学习解耦。

3.1 三维车道检测中的几何学

我们首先回顾几何,建立理论,推动我们的方法。在如图3(a)所示的普通车载摄像头设置中,3D车道在由 x 、 y 、 z x、y、z xyz轴和原点 O O O定义的ego-vehicle坐标系中表示,其中 O O O定义了摄像头中心在道路上的垂直投影。通过简单的设置,只有相机高度 h h h和俯仰角 O O O被认为代表相机姿态,从而导致由 x c , y c , z c x_c, y_c, z_c xc,yc,zc轴和原点 C C C定义的相机坐标帧。首先通过投影变换将3D场景投影到图像平面,然后通过平面单应性将捕获的图像投影到平坦的道路平面,可以生成虚拟顶视图。由于涉及摄像机参数,虚拟俯视图中的点与自车系统中相应的三维点相比,原则上具有不同的x、y值。本文将虚拟顶视图形式化地看作是由坐标轴 x ‾ 、 y ‾ 、 z \overline x、\overline y、z xyz和原始 O O O定义的唯一坐标系,并推导了虚拟顶视图坐标系与自车坐标系之间的几何变换。
在这里插入图片描述
对于投影相机,一个三维点 ( x , y , z ) (x,y,z) (x,y,z)及其在成像平面上的投影和相机光学中心 ( 0 , 0 , h ) (0,0,h) (0,0,h)应该位于一条射线上。类似地,如果一个点 ( x ‾ , y ‾ , 0 ) (\overline x, \overline y, 0) (x,y,0)从虚拟顶视图投射到相同的图像像素,它必须在同一条射线上。因此,相机中心 ( 0 , 0 , h ) (0,0,h) (0,0,h)与三维点 ( x , y , z ) (x,y, z) (x,y,z)及其对应的虚拟顶视图点 ( x ‾ , y ‾ , 0 ) (\overline x, \overline y, 0) (x,y,0)呈现共线关系,如图3 (b)和©所示。这三点之间的关系为:
在这里插入图片描述
所示,无论 z z z是正的还是负的,这种关系都成立。由此推导出从虚拟顶视图坐标系到三维ego-vehicle 坐标系的几何变换为:

在这里插入图片描述
值得一提的是,所得到的变换描述了一个一般的关系,而不假设相机方向上的偏航角和滚转角为零。

3.2几何导向锚表示

根据所提出的几何结构,我们分两步解决了三维车道检测问题:首先使用网络对图像进行编码,将特征转换为虚拟俯视图,并预测虚拟俯视图中表示的车道点;然后利用所提出的几何变换计算小车坐标系下的三维车道点,如图5所示。公式2原则上保证了这种方法的可行性,因为变换与摄像机方向无关。这是一个重要的事实,以确保该方法不受相机姿态估计不准确的影响。
锚点表示是结构化场景中统一边界检测和轮廓分组的网络实现的核心,因为它有效地将搜索空间约束在一个可处理的水平上。与3D- lanenet[6]类似,我们开发了一种锚点表示,使网络可以直接以折线的形式预测3D车道。在形式上,如图4所示,车道锚点被定义为X位置 { X A i } i = 1 N {\lbrace {X_A^i} \rbrace}_{i=1}^N {XAi}i=1N上的 N N N条等间距的垂直线-给定一组预定义的固定y位置 { y i } j = 1 K {\lbrace {y_i} \rbrace}_{j=1}^K {yi}j=1K,每个锚点 X A i X_A^i XAi 3 ⋅ K 3\cdot K 3K属性 { ( x ‾ j i , z j i , v j i ) } j = 1 K \lbrace (\overline x_j^i, z_j^i, v_j^i)\rbrace_{j=1}^K {(xji,zji,vji)}j=1K中定义一条3D车道线,或者等价地在三个向量 ( x i , z i , v i ) (x^i, z^i,v^i) (xi,zi,vi)中定义一条3D车道线,其中的值是相对于锚点位置和属性 v j i v_j^i vji的水平偏移量,表示每个车道点的可见性。用 c c c表示车道中心线型,用 l l l表示车道-线型,每个锚点可以写成 X A i = { ( x t i , z t i , v t i , p t i ) } t ∈ { c , l } X_A^i =\lbrace(x_t^i, z_t^i,v_t^i,p_t^i)\rbrace_{t∈\lbrace c,l \rbrace} XAi={(xti,zti,vti,pti)}t{c,l},其中 p t t p_t^t ptt表示车道存在的概率。基于这个锚点表示,我们的网络在虚拟顶视图中输出3D车道线。然后应用导出的变换计算它们对应的三维车道点。给定每个车道点的预测可见概率,只有这些可见车道点将保留在最终输出中。
在这里插入图片描述
与3DLaneNet相比,我们的锚表示涉及两个主要变化。首先,车道点的位置在一个不同的坐标框架中表示,即虚拟顶视图。这种变化保证了目标车道位置与投影图像特征对齐,如图2底部一行所示。与3D-LaneNet中对整个场景进行全局编码相比,在局部斑块级别建立相关性对新的或未观察到的场景更具鲁棒性。甚至一个新的场景的整体结构也没有从训练中观察到,那些局部的斑块更有可能被观察到。其次,将附加属性引入到表示中,以指示每个锚点的可见性。因此,我们的方法在处理部分可见的车道时更加稳定,如图2所示。

3.3解耦图像编码和几何推理的两阶段框架

我们提出了一种两阶段框架,将图像编码和三维几何推理的学习解耦,而不是采用端到端学习网络。基本上,两阶段框架通过引入2D车道分割形式的中间表示来减轻三维几何对图像外观的依赖。如图5所示,第一个子网络主要用于图像域的车道分割;第二,从第一子网的分割输出预测三维车道结构。两阶段框架的动机是一个重要的事实,即三维几何的编码是相当独立于图像特征。从图3 (b)中可以看出,地面高度z与该位置的位移矢量主要相关 ( x ‾ , y ‾ ) (\overline x,\overline y) (x,y)到位置 ( x , y ) (x, y) (x,y)。因此,估算地面高度在概念上等同于估算一个矢量场,使得所有点对应于俯视图中的车道将以并行方式移动到整体位置。它可以是。预测二维车道分割所携带的几何信息是足够的用于三维车道预测。

在这里插入图片描述
有很多现成的候选算法[24,23,21,9]可以在图像中执行2D车道分割,其中任何一个都可以毫不费力地集成到我们框架的第一阶段。虽然当代方法实现了更高的性能,但我们选择ERFNet[24]是因为它的简单性,因此强调了两阶段框架的原始力量。对于3D车道预测,我们引入3DGeoNet,如图5所示,从图像分割中估计3D车道。首先将分割图投影到顶视图,并通过顶视图分割编码器编码成顶视图特征图。然后,车道预测头根据提出的锚点表示恢复三维车道属性。车道预测头生成的三维车道点在俯视图位置表示,然后通过引入的几何变换计算自车坐标系下的三维车道点。
解耦图像编码和几何推理的学习使两阶段框架更具成本效益和可扩展性。如第2节所述,像[6]这样的端到端学习框架与图像外观密切相关。因此,它依赖于大量非常昂贵的真实世界3D数据进行学习。相反,两阶段管道大大降低了成本,因为它不再需要在不同天气、白天时间和遮挡情况下在同一区域收集冗余的真实3D车道标签。此外,两阶段框架可以利用更充分的二维真实数据,例如[4,1,21],来训练更可靠的二维车道分割子网。以极其稳健的分割作为输入,3D车道预测将会表现得更好。在最优的情况下,两阶段框架可以从二维真实数据中训练图像分割子网,而只训练三维几何子网合成三维数据。我们将最优解推迟到未来的工作,因为需要领域转移技术来解决完美的合成分割地真值与第一子网分割输出之间的领域差距。

3.4 训练

给定图像及其对应的真地3D车道,训练过程如下。每个真实车道曲线都被投影到虚拟俯视图中,并与 Y r e f Y_{ref} Yref上最近的锚相关联。根据预定义位置 { y i } j = 1 K \lbrace y_i \rbrace_{j=1}^K {yi}j=1K处的基础真值计算基础真值锚属性。给定预测锚点 X A i X_A^i XAi对和相应的底真值 X ^ A i = { ( x ^ t i , z ^ t i , v ^ t i , p ^ t i ) } t ∈ { c , l } \hat{X}_A^i =\lbrace(\hat x_t^i,\hat z_t^i, \hat v_t^i, \hat p_t^i)\rbrace_{t∈\lbrace c,l \rbrace} X^Ai={(x^ti,z^ti,v^ti,p^ti)}t{c,l},则损失函数可表示为:
在这里插入图片描述
与3DLaneNet中引入的损失函数相比,有三个变化[6]。首先, x t i x_t^i xti x ^ t i \hat x_t^i x^ti都在虚拟顶视图坐标系中表示,而不是在自我-车辆坐标系中表示。其次,增加额外的成本项来衡量预测可见性向量与真实可见性向量之间的差异。第三,测量 x ‾ \overline x x z z z距离的成本项乘以相应的可见概率 v v v,这样那些不可见的点就不会造成损失。

4合成数据集及构建策略

由于缺乏三维车道检测基准,我们构建了一个合成数据集来开发和验证三维车道检测方法。我们的 d a t a s e t 2 dataset^2 dataset2模拟了大量的视觉元素,并特别关注于评估一种方法对很少观察到的场景的泛化能力。我们使用Unity游戏引擎,以逼真的背景元素构建高度多样化的3D世界,并渲染具有多样化场景结构和视觉外观的图像。合成数据集由三个具有不同地形信息的世界地图渲染而成。所有的地图都是基于美国硅谷的真实区域。车道线和中心线涉及足够的地面高度变化和转弯,如图6所示。图像稀疏地呈现在不同地点、不同时段(上午、中午、晚上),车道标志退化两级,相机高度随机在1.4 ~ 1.8m,俯仰角度随机在0°~ 10°。我们在数据渲染过程中使用了固定的内在参数,并在模拟环境中放置了相当数量的代理车辆,这样渲染的图像就包含了真实的车道遮挡。综上所述,共提供了虚拟公路地图6000个样本,城市地图1500个样本,居民区3000个样本,以及相应的深度图、语义分割图和三维车道线信息。3D车道标签在距离相机200米的地方被截断,并且在渲染图像的边界处。
到目前为止,关于遮挡的基本信息对于开发可靠的3D车道检测器仍然缺乏。通常,车道检测器期望恢复前景遮挡部分,但丢弃车道背景遮挡部分,这反过来要求准确标记每个车道点的遮挡类型。在我们的数据集中,我们使用真实深度图和语义分割图来推断车道点的遮挡类型。首先,当车道点的 y y y位置偏离深度图中相应像素处的值时,认为车道点被遮挡。其次,根据语义分割图进一步确定其遮挡类型;最终的数据集保留了被前景遮挡的部分车道,丢弃了被背景遮挡的部分车道,如图6所示距离中的黑色部分。

5 实验

在本节中我们首先描述实验设置,包括数据集分割、基线、算法实现细节和评估指标。然后我们进行实验来证明我们在烧蚀中的贡献。最后,与现有技术相比,我们设计并进行了实验来证实我们的方法的优势[6]。
数据集设置: 为了从不同的角度评估算法,我们设计了三种不同的规则来分割合成数据集:
(1)平衡场景:训练和测试集遵循整个数据集的标准五倍分割,对具有大量无偏数据的算法进行基准测试。(2)很少观察到的场景:该数据集分割包含与平衡场景相同的训练数据,但仅使用从复杂城市地图中捕获的测试数据的子集。这种数据集分割的目的是检查一种方法对训练中很少观察到的测试数据的泛化能力。由于测试图像稀疏地呈现在不同的位置,涉及剧烈的高程变化和急转弯,测试数据中的场景很少从训练数据中观察到。(3)具有视觉变化的场景:这种数据集分割评估光照变化下的方法,假设在同一地区,相比昂贵的3D数据,可以获得更多可负担的2D数据来覆盖光照变化。具体来说,在Gen-LaneNet的第一阶段,我们使用与平衡场景相同的训练集来训练图像分割子网。然而,我们的方法(3D- geonet)和3DLaneNet[6]的三维几何子网的训练中排除了特定白天时间,即黎明之前的三维示例。相反,在测试中,只使用与排除的白天时间相对应的算例。

基线和参数: Gen-LaneNet与其他两种方法进行比较:先前最先进的3D-LaneNet[6]被认为是主要基线;为了诚实地研究我们的两阶段框架的上界,我们将3DGeoNet子网作为一种独立的方法,它被馈送到真实的二维车道分割中。为了公平比较,所有方法都将原始图像的大小调整为360 × 480,第一顶视图层使用相同的空间分辨率208 × 108,分别表示 x x x轴和 y y y轴范围为[- 10,10]x[1,101]米的平地区域。对于锚点表示,我们使用 y y y位置{3,5,10,15,20,30,40,50,65,80,100},其中间隔逐渐增加,因为距离中的视觉信息在俯视图中变得更稀疏。在标签准备中,我们设置 Y r e f = 5 Y_{ref} = 5 Yref=5 将每个lane标签与其最近的锚关联起来。在训练中,所有网络随机初始化为正态分布,用Adam优化从头开始训练,初始学习率为 5 ⋅ 1 0 − 4 5\cdot10^{-4} 5104。我们设置批大小为8,并在30个epochs中完成训练。对于训练ERFNet,我们遵循与[24]中描述的相同的过程,但修改了输入图像大小和输出分割映射大小。为了排除相机参数不准确造成的误差,我们在合成数据集提供了完善的相机内外参数的情况下进行了所有实验。

评估指标: 我们将三维车道检测的评估表述为预测车道和地面真实车道之间的二部匹配问题。通过最小成本流寻求全局最优匹配。相比于[1]中的一对多匹配和[6]中的贪婪搜索二部匹配,我们的评估方法是目前为止最严格的。
为了更好地处理部分匹配,我们在欧氏距离上定义了一个新的车道间的成对代价。特别的,车道用 X j = { x i j , z i j , v i j } i = 1 n X^j=\lbrace x_i^j,z_i^j,v_i^j \rbrace_{i=1}^n Xj={xij,zij,vij}i=1n表示在 n n n个预先确定的 y y y位置,KaTeX parse error: Expected group after '_' at position 2: v_̲^i表示在y位置是否被给定车道覆盖。与锚点相比,这里使用了更密集的y位置,它们在0到100米之间均匀放置,间隔2米。形式上, X j X^j Xj X k X^k Xk之间的车道到车道的成本计算为所有y位置上逐点距离平方和的平方根,写成:
在这里插入图片描述

其中
在这里插入图片描述
具体来说,当y位置被两条车道覆盖时,计算逐点欧几里得距离。当一个y位置只有一条车道覆盖时,点向距离被分配为最大允许距离 d m a x = 1.5 m d_{max} = 1.5m dmax=1.5m。当一个位置不被任何车道覆盖时,逐点距离被设为零。遵循这样的度量,覆盖不同y位置范围的一对车道仍然可以匹配,但需要额外的成本与编辑点的数量成正比。这个定义成本的灵感来自于字符串匹配中的编辑距离概念。在列举出两个集合之间的所有成对代价后,我们采用Google or工具中包含的求解器来求解最小代价流问题。对于每个设置的每个车道,当75%的覆盖y位置的逐点距离小于最大允许距离(1.5米)时,我们认为它是匹配的。
最后,将匹配的真实车道百分比报告为召回率,将匹配的预测车道百分比报告为准确率。我们将平均精度(AP)作为综合评价,并将最大f分数作为应用中最佳操作点的评价。

5.2锚点效应

在这里插入图片描述
与[6]相比,我们首先证明了所提出的几何引导锚表示的优越性。对于每个候选方法,我们保留架构完全相同,除了锚表示集成。如表1所示,所有三种方法,无论是端到端3D-LaneNet[6],“理论上现有的”3D-GeoNet,还是我们的两阶段Gen-LaneNet,都从新的锚设计中受益匪浅。AP和F-score在数据集的所有分割中都实现了3%到10%的改进。

5.3两阶段框架的上界

通过实验验证了两阶段方法在集成更鲁棒的图像分割时可能获得更高的精度,同时在提供完美的图像分割子网络时能够定位Gen-LaneNet的上界。如表2所示,在所有三种实验设置中,3D-GeoNet始终优于Gen-LaneNet和3D-LaneNet。我们注意到,在平衡场景中,比Gen-LaneNet的改进非常明显,大约提高了3%,而在很少观察到的场景和视觉变化的场景中,改进幅度从5%到7%不等。这一观察结果相当令人鼓舞,因为从困难的情况(例如:(如新场景或具有戏剧性视觉变化的图像)仍然可以从抽象的真值分割或从图像分割子网的输出中很好地推断出来。此外,表2也显示了我们的方法有希望的上界,因为3D-GeoNet在F-score和AP上从5%到18%大大优于3D-LaneNet[6]。

在这里插入图片描述

5.4整体系统评价

我们通过两阶段Gen-LaneNet与先前最先进的3D-LaneNet之间的整个系统比较来结束我们的实验[6]。苹果与苹果之间的比较已经对数据集的所有三段进行了比较,如表3所示。在平衡场景中,3D-LaneNet工作得很好,但我们的GenLaneNet仍然实现了0.8%的AP和1.7%的F-score提升。考虑到这种数据分割很好地平衡了训练和测试数据,并且涵盖了各种场景,这意味着所提出的Gen-LaneNet在各种场景上都有更好的泛化场景;在很少观察到的场景中,AP和f分数都提高了6%结果表明,该方法在不常见的测试场景下具有较好的鲁棒性;最后,在具有视觉变化的场景中,我们的方法在F-score和AP上明显超过3D- lanenet约13%,这表明我们的两阶段算法成功地受益于图像编码和3D几何推理的解耦学习。对于任何特定场景,我们都可以在图像中标注成本更低的2D车道,学习一个通用的分割子网,同时标记有限数量的昂贵的3D车道,学习3D车道的几何形状。这使得我们的方法在实际应用中更具可扩展性。在补充材料中给出了定性比较。
除了F-score和AP外,还分别报告了匹配车道近距离(0-40米)和远距离(40米)的误差(欧几里得距离)。这是一种补充性评价,侧重于检测部分的质量。据观察,Gen-LaneNet与3D-LaneNet保持较低或相当的误差,甚至涉及更多匹配的车道3。
运行时间分析:Gen-LaneNet在单个NVIDIA RTX 2080 GPU上的平均运行速度为60 FPS,而3D-LaneNet的平均运行速度为53 FPS。
在这里插入图片描述

6结论

我们提出了一种广义的、可扩展的三维车道检测方法Gen-LaneNet。引入了一种几何导向的锚点表示,以及一种分离图像分割学习和三维车道预测的两阶段框架。此外,我们还提出了一种构建三维车道检测合成数据集的新策略。我们通过实验证明,从各个角度来看,我们的方法在AP和F-score上都明显优于3D-LaneNet。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值