Structure Guided Lane Detection

最新推荐文章于 2022-11-02 17:49:47 发布

zzzzz忠杰

最新推荐文章于 2022-11-02 17:49:47 发布

阅读量1.4k

点赞数

分类专栏：笔记文章标签：自动驾驶人工智能机器学习

本文链接：https://blog.csdn.net/weixin_43889128/article/details/121628849

版权

笔记专栏收录该内容

75 篇文章 3 订阅

订阅专栏

摘要

近年来，随着深度神经网络和自动驾驶的快速发展，车道检测取得了长足的进步。然而，主要存在三个问题，包括表征车道、建模场景和车道之间的结构关系以及支持更多的车道属性（例如，实例和类型）。在本文中，我们提出了一种新颖的结构引导框架来同时解决这些问题。在该框架中，我们首先引入了一种新的车道表示来表征每个实例。然后提出了一种自上而下的消失点引导锚固机制来产生密集锚，从而有效地捕获各种车道。接下来，使用多级结构约束来改善车道的感知。在此过程中，引入像素级感知和二值分割，提升锚点周围的特征，自下而上恢复车道细节，提出车道级关系到车道周围的模型结构（即平行），以及图像级注意用于从场景的角度自适应地关注图像的不同区域。在结构引导的帮助下，锚被有效地分类和回归以获得精确的位置和形状。在公共基准数据集上的大量实验表明，所提出的方法在单个 GPU 上以 117 FPS 的速度优于最先进的方法。

引言

车道检测旨在检测道路场景中的车道，是一项基本的感知任务，具有广泛的应用（例如，ADAS [Butakov and Ioannou, 2014]、自动驾驶 [Chen and Huang, 2017] 和高清地图 [Homayounfar 等人，2019 年]）。在过去的几年里，车道检测取得了重大进展，它也被用作道路场景理解任务的重要元素，例如驾驶区域检测 [Yu et al., 2020]。
为了解决车道检测任务，许多基于学习的方法 [Pan et al., 2018; Qin et al., 2020] 已经近年来提出，在现有基准上取得了令人瞩目的表现 [TuSimple, 2017; 潘等人，2018]。
然而，仍然存在一些阻碍车道检测发展的挑战。首先，缺乏统一有效的车道表示。如图 1 (a) 所示，存在各种定义，包括点 [TuSimple, 2017]、掩码 [Pan et al., 2018]、标记 [Yu et al., 2020] 和网格 [Lee et al., 2017]，对于不同的场景在形式上有很大的不同。其次，很难对场景和车道之间的结构关系进行建模。如图1（b）所示，消失点的位置、车道的平行度等场景依赖的结构信息非常有用，但没有方案描述。最后，在预测车道的同时，预测包括实例和类型在内的其他属性也很重要（参见图 1 的（c）），但对于现有方法来说，扩展这些属性并不容易。这三个难点尤其难以处理，大大减缓了车道检测的发展。由于这些困难，车道检测仍然是一项具有挑战性的视觉任务。
为了解决第一个困难，许多方法用简单的拟合曲线或掩码来表征车道。例如，SCNN [Pan et al., 2018] 将问题视为语义分割任务，并在特征图中引入逐片卷积，从而实现消息传递。对于这些方法，车道被表征为一种特殊的形式（例如，点、曲线或掩码），因此很难支持通常具有不确定编号的标记或网格的格式。
同样，支持后者的人 [Lee et al., 2017] 也不太支持前者。为了解决第二个问题，一些方法使用消失点或平行关系作为辅助信息。例如，消失点预测任务 [Lee et al., 2017] 被用来隐式嵌入几何上下文识别能力。在这些方法中，他们通常只关注某种结构信息或不直接端到端地使用它，导致结构不能完全发挥作用，算法复杂。对于最后一个问题，一些基于聚类或检测的方法用于区分或分类实例。
Line-CNN [Li et al., 2019] 利用线路提议作为定位交通曲线的参考，这迫使该方法学习车道的特征。对于这些方法，它们可以区分实例，甚至可以扩展到更多的属性，但它们通常需要额外的计算，并且具有许多手动设计的超参数，导致可扩展性较差。
受这些观察和分析的启发，我们提出了一种用于车道检测的新型结构引导框架，如图 2 所示。为了表征车道，我们提出了一种基于框线的提议方法。在该方法中，车道的最小外接矩形用于区分实例，其中心线用于结构化定位。为了利用结构信息进一步改进车道检测，提出了消失点引导锚定机制来生成密集锚（即尽可能少和准确的锚）。
在这种机制中，消失点以分段方式学习，并用于自上而下生成结构锚点，可以有效地捕获各种车道。同时，我们提出了多层次的结构约束来提高车道的感知。在这个过程中，像素级感知被用来在车道二值分割的帮助下改善车道细节，车道级关系旨在通过神经网络通过逆透视映射（IPM）对车道间的并行特性进行建模，图像级注意力是从场景的角度以自适应权重来关注图像。最后，提取结构引导下车道锚的特征，用于准确分类、回归和其他属性的预测。在 CULane 和 Tusimple 数据集上的实验结果验证了所提出方法的有效性，该方法实现了最先进的性能并以 117 FPS 有效运行。
本文的主要贡献包括：1）我们提出了一种用于车道检测的结构引导框架，该框架可以表征车道并可以准确地分类、定位和恢复无限车道的形状。 2）我们引入了消失点引导锚定机制，其中预测消失点并用于产生密集锚点，可以精确捕获车道。 3）我们提出了多级结构约束，用于感知像素级一元细节，建模车道级成对关系并自适应地参与图像级全局信息

方法

为了解决这些困难（即表征车道、建模场景和车道之间的关系以及支持更多属性），我们提出了一种用于车道检测的新型结构引导框架，表示为 SGNet。在这个框架中，我们首先引入了一种新的车道表示。然后提出了自上而下的消失点引导锚定机制，并使用了下一个多级结构约束。所提出的方法的细节描述如下。
3.1代表
为了适应不同风格的车道标注，我们引入了一种新的基于框线的车道表示方法。
首先，我们计算车道实例 Llane 的高度为 h 和宽度为 w 的最小外接矩形 R（“盒子”）。对于该矩形，获得垂直于短边的中心线Lcenter（“线”）。 X 轴正方向与 Lcenter 顺时针方向的夹角为 θ。
通过这种方式，Lcenter 提供了车道实例的位置，而 h 和 w 限制了所涉及的区域。基于R和Lcenter，可以进行基于点、掩码、标记、网格等格式的车道预测。在本文中，基于车道检测关键点的解决方案只是因为公共数据集中车道标注的基于点的风格（例如，CULane [TuSimple, 2017] 和 Tusimple [Pan et al., 2018]）。
受现有方法的启发 [Li et al., 2019; 陈等，2019； Qin et al., 2020]，我们用等距的 y 坐标 Y = {yi} 和 yi = HP −1 · i(i = 1, 2, …, P − 1) 定义车道实例的关键点，其中P表示通过图像高度的所有关键点的数量，固定在相同高度H和宽度W的图像上。因此，车道的x坐标表示为X = {xi}。为表达方便，将Lcenter的直线方程定义为
g123
3.2特征提取器
如图 2 所示，SGNet 将 ResNet [He et al., 2016] 作为特征提取器，对其进行修改以移除像素级预测任务的最后一个全局池化层和全连接层。特征提取器有五个用于编码的残差模块，命名为 Ei(πi)，参数为 πi(i = 1, 2, …, 5)。
为了获得更大的特征图，我们通过具有 256 个 3 × 3 内核的卷积层对 E5(π5) 进行卷积，然后对特征进行 ×2 上采样，然后使用 E4(π4) 进行元素求和以获得 E 0 4 (π 0 4）。最后，对于 H × W 输入图像，特征提取器输出 H 16 × W 16 特征图。
3.3消失点引导锚定
为了学习车道表示，主要有两种方式来学习中心线 Lcenter 和 x offset ∆X。第一种方式是直接用角度、数字和位置回归学习确定的Lcenter，由于回归任务固有的难度，通常很难达到精确的结果。第二种方式是基于成熟的检测任务，使用密集的anchor进行分类、回归，然后得到代表车道实例的proposals。第二个已被证明在一般对象检测任务中运行良好，因此我们选择它作为我们的基础模型。
为了更好地了解中心线 Lcenter 和 x 偏移量 ΔX，我们提出了一种新颖的消失点引导锚固机制（称为 VPG 锚固）。消失点 (VP) 提供了对几何场景的强烈表征，代表道路的尽头，也是“虚拟”点车道在远处相交。由于VP是车道的交叉点，场景中的车道必定经过VP，不经过VP的线大概率不是场景中的车道。因此，从VPs辐射出的密集线理论上可以覆盖图像中的所有车道，相当于将anchors的生成空间从R H×W×Nproposal 减少到R Nproposal 。 Nproposal 表示在一个像素上生成的锚点的数量。
如图 2 所示，特征图 E 0 4 (π 0 4 ) 被馈送到 VPG-锚定。在该机制中，VP 由一个简单的分支预测，该分支由多尺度上下文感知多孔空间金字塔池化 (ASPP) [Chen et al., 2018] 实现，然后是具有 256 个 3 × 3 内核的卷积层和 softmax 激活。 VP 预测分支用参数 πV 表示为 φV (πV )。
通常，车道数据集中没有标注 VP，例如 CULane [Pan et al., 2018]，因此我们对所有车道实例的中心线的交点进行平均，得到近似的 VP。另外，单个点通常很难预测，因此我们将VP的区域扩大到半径为16个像素，并使用分割算法进行预测。为了实现这一点，我们期望 φV (πV ) 的输出通过最小化损失来近似 VP 的真实掩码（表示为 GV ）
g4
其中 BCE(·,·) 表示像素级二元交叉熵损失函数。
为了保证生成的anchor足够密集，我们选择一个以VP为中心的Wanchor×Wanchor矩形区域，每个Sanchor取一个点来生成anchor。对于每个点，每个Aanchor角度（Aanchor ∈ [0, 180]）都生成anchor，如图4所示。这样，与一般的全尺度均匀生成甚至特别车道设计方法 [Li et al., 2019]。注意anchors贯穿整张图片，为了方便展示，图中只展示了VP以下的部分。 2 和 4。
3.4分类和回归
为了对生成的锚点进行分类和回归，我们基于 E4(π4) 和几个卷积层提取高级特征图。特征图被命名为FA∈R H0×W0×C 0 ，其中H0、W0和C 0 是FA的高度、宽度和通道。对于每个anchor Llane，从FA中提取anchor上每个点的通道级特征以获得车道描述符DA ∈ R H0×C 0 ，用于对存在的ConfLlane进行分类并回归x偏移量ΔXLlane，包括长度len 车道。为了学习这些，我们期望输出通过最小化损失来近似真实存在 GConf Llane 和 x offsets G∆XLlane
3.5多层次结构约束
为了进一步提高车道感知，我们提出了场景和车道之间的结构关系，并深入探讨了像素级、车道级和图像级的结构。
像素级感知自上而下的VPG锚固机制涵盖车道的结构和分布。同时，需要自下而上的细节感知，这确保车道细节得到更准确的恢复和描述。为了改善细节感知，我们引入车道分割分支来定位车道位置，并提升像素级一元细节。如图2所示，车道分割分支与VP预测分支具有相同的输入和相似的网络结构。车道分割分支表示为φP（πP），参数为πP。为了分割车道，我们期望PP=φP（πP）的输出通过最小化损失近似于二进制车道掩码（表示为GP）的地面真值掩码
g6
g7
车道等级关系事实上，车道在施工过程中符合一定的规则，最重要的是车道平行。由于成像的原因，透视变换后不再保持这种关系，但可以对其进行潜在建模。为了对车道等级关系进行建模，我们通过H矩阵[Neven等人，2018]通过神经网络进行IPM。学习H后，车道实例Llane可以在鸟瞰图上转换为L0车道，不同的实例是平行的。形式上，我们定义车道之间的关系如下。对于图像中的两个车道实例Llane1和Llane2，它们通过学习的H矩阵投影到鸟瞰图，并获得相应的实例L0Lane1和L0Lane2。这个以下线性方程可以拟合两个实例：
g8
g9
图像级注意在相机成像过程中，远距离物体经过投影后变得很小。通常，车道的距离信息在视觉上并不突出，但它们同样重要。通过分析发现，车道与VP之间的距离与成像中的比例成反比。因此，我们基于VP生成透视注意图PAM，这是基于强烈假设成像后的注意和距离满足二维高斯分布。PAM通过自适应地限制分类和回归损失（来自等式5），确保不同区域的注意力，如下所示。
g10
g11

实验和结果

4.1实验设置
数据集为了评估所提出方法的性能，我们在CULane[Pan等人，2018]和Tusimple[Tusimple，2017]数据集上进行了实验。CULane数据集分为88880/9675/34680张用于train/val/test的图像，Tusimple数据集分为三部分：3268/358/2782张用于train/val/test。
韵律学。对于CULane，我们使用F1度量分数作为评估指标。[Pan等人，2018年]之后，我们将每条车道视为一条宽度为30像素的直线，并以0.5的阈值计算地面真相和预测之间的联合交点（IoU）。对于Tusimple，官方度量（精度）用作评估标准，评估预测车道点的校正。
训练和推理我们使用Adam优化算法通过优化等式（11）中的损耗来训练我们的网络端到端。在优化过程中，采用预先训练好的ResNet18/34模型对特征提取器的参数进行初始化，所有实验均采用“poly”学习速率策略。将训练图像调整为360×640的分辨率，以加快训练速度，并应用仿射和翻转。我们在CULane上训练了10个时代的模型，在TuSimple上训练了60个时代的模型。此外，我们通过经验和实验设置了点的数量P=72，矩形Wanchor的宽度=40，锚定跨距Sanchor=5，锚定角度间隔Aanchor=5。
4.2对比SOTA
我们将我们的方法与包括DeeplabV2[Chen等人，2017]、SCNN[Pan等人，2018]、FD[Philion，2019]、ENet SAD[Hou等人，2019]、PointLane[Chen等人，2019]、RONELD[Chng等人，2020]、PINet[Ko等人，2020]、ERFNet-E2E[Yoo等人，2020]、KD内[Hou等人，2020]、UltraFast[Qin等人，2020]、CurveLanes在内的最新技术进行了比较[Xu等人，2020]，级联CNN[Pizzati等人，2019]和PolyLaneNet[Tabelini等人，2020]。
我们将我们的方法与CULane数据集上的10种最先进的方法进行比较，如表1所示。将我们基于ResNet34的方法与其他方法进行比较，我们可以看到，在总体和几乎所有类别中，所提出的方法始终优于其他方法。对于总体数据集，我们的方法从74.80%显著提高到77.27%此外，值得注意的是，我们的方法在人群（+2.31%）、箭头（+2.17%）和夜间（+3.79%）上分别明显优于次佳方法。此外，我们在交叉上的FP也明显低于次佳方法3.78%。至于曲线，我们略低于最佳方法（ERFNet-E2E），它对曲线点进行特殊处理，同时可能损坏其他类别。此外，我们的方法比几乎所有结果具有更快的FPS。这些观察结果表明了我们提出的方法的效率和鲁棒性，并验证了VPG锚定和多级结构对于车道检测任务是有用的。
由我们的方法和其他最先进的算法生成的一些示例如图5所示。我们可以看到，即使在复杂的情况下，所提出的方法也可以通过精确的位置和精确的形状来检测车道。这些可视化结果表明，所提出的车道表示具有良好的车道特征，并且显示了分析了该方法的优越性。
此外，我们还列出了Tusimple上的比较，如表4所示。2.可以看出，我们的方法在没有调整的高速公路场景中具有竞争力，这进一步证明了结构信息用于车道检测的有效性。
4.3消融分析
为了验证所提出方法的不同组成部分的有效性，我们在CULane上进行了一些实验，以比较我们的方法的性能变化。
VPG锚定的有效性为了研究所提出的VPG锚定的有效性，我们进行了烧蚀实验，并引入了三种不同的模型进行比较。第一种设置仅为特征抽取器和分类与回归子网，该子网被视为“基础”模型。在Base中，在特征地图的所有位置统一生成锚定，并降低锚定以确保与SGNet相同的数量。此外，我们通过添加VPG锚来执行另一个模型（“Base+V”）。
我们还将Lcenter替换为由关键点直接拟合的直线作为“Base+V-F”，以探讨VP的重要性。表3列出了上述模型的比较。3.
我们可以观察到，VPG锚定大大提高了基础模型的性能，这验证了该机制的有效性。此外，通过比较Base+V和Base+V-F，我们发现在车道表示中提出的近似VP优于直接拟合的VP。
多层次结构的有效性为了探索像素级、车道级和图像级结构的有效性，我们进行了另一个实验，将像素级感知与“基本+V”作为“基本+V+P”，并将车道级关系添加到“基本+V+P”作为“基本+V+P+L”。
从选项卡的最后四行开始。3，我们可以发现，通过像素级、车道级和图像级结构，车道检测的性能可以不断提高，这验证了三个级别的约束相互兼容，并且可以一起使用以获得性能。

结论

在本文中，我们重新思考了阻碍车道检测发展的困难，并提出了一种结构导向框架。在此框架中，我们引入了一种新的车道表示，以满足各种车道表示的需求。
基于这种表示，我们提出了一种新的消失点引导锚定机制来生成密集锚定，从而有效地捕捉车道。此外，还对多层次结构约束进行建模，以改善车道感知。
在基准数据集上的大量实验验证了该方法的有效性和快速推理能力，并表明结构信息的建模和利用对于车道检测是有用的。