ABSTRACT
受人类驾驶专注力的启发,这项研究开创性地利用聚焦采样(Focusing Sampling)、部分视野评估(Partial Field of View Evaluation)、增强型 FPN 架构和定向 IoU 损失(Directional IoU Loss)等技术增强网络,有针对性地创新解决了自动驾驶精确车道检测的障碍。实验证明,我们的 "聚焦采样 "策略与统一方法不同,强调重要的远距离细节,显著提高了对安全至关重要的基准和实际弯道/远距离车道识别精度。FENetV1 通过模拟驾驶员视觉的增强隔离透视感知上下文,实现了最先进的传统度量性能,而 FENetV2 则在建议的部分场分析中被证明是最可靠的。因此,我们特别推荐将 V2 用于实际的车道导航,尽管它在标准的全图像度量上有一定程度的下降。未来的发展方向包括收集道路数据和整合互补的双重框架,以便在人类感知原理的指导下取得进一步突破。代码可在此处获取。
INTRODUCTION
本研究描述了驾驶过程中人类视觉焦点与 2D 摄像机捕捉到的视角之间的差异。图 1 显示,经验丰富的驾驶员会优先注视远处的道路区域,这一策略对于预测道路几何形状和转向调整至关重要[1, 2, 3]。这种行为在弯道附近尤为明显,包括凝视前方 1-2 秒钟的关键预览区域[2, 4]。受这些人类聚焦模式的启发,我们的研究引入了 "聚焦采样 "方法,旨在增强对远处车道边界标记的检测和回归,这是高速自动驾驶中的一个关键挑战。此外,我们还提出了 "部分视野评估 "方法,以提高实际场景中的准确性评估,强调前方路段与驾驶员关注点的一致性。
在车道检测领域,CLRNet [5] 和 GANet [6] 等流行模型依赖于统一的多尺度特征金字塔网络(FPN)架构。然而,这些模型并不能充分捕捉全局空间环境,而全局空间环境对于详细描述安全导航所需的关键道路环境至关重要。尽管变换器(Tansformer)以其全局语义处理能力而著称[7],但在识别细长的车道标线时,其效率就会降低,因为在这种情况下,主要线索非常稀少。车道边界还显示出巨大的尺度变化,并受到不同照明和表面条件的影响 [8]。为了克服这些挑战,我们的研究在 FPN 中引入了位置或标准非局部块(either positional or standard non-local blocks),用广泛的全局上下文信息丰富了 FPN。此外,随后的实验证明,"方向性 IoU 损失 "不仅能与定位非局部块相媲美,甚至还能超越定位非局部块带来的优势。
这项研究有四项创新:(1) "聚焦采样",一种优先考虑较小和较远车道细节的训练策略;(2) "部分视野评估",对真实世界应用至关重要的前方路段准确性的新指标;(3) 增强型 FPN 架构,根据需要结合位置非局部块或标准非局部块( either positional non-local blocks or standard non-local blocks);(4) "方向性 IoU 损失",一种解决较远车道方向差异的新型回归损失。FENetV1 采用位置非局部块,通过专注于与视角相关的语义,在传统指标上取得了最先进的结果。另一方面,FENetV2 将坐标建模整合到 "方向性 IoU 损失 "中,在远距离车道的边界定位精度方面表现出色。虽然与 FENetV1 相比,FENetV2 在常规指标上可能略逊一筹,但它在远距离车道回归方面的专长使其更适合实际导航。从本质上讲,这项开创性的工作主张加强以回归为重点的模型和评估,采用有针对性的技术,优先表示和评估对准确、安全的自主车道检测至关重要的道路细节。
RELATEDWORKS
基于深度学习的车道预测方法可分为语义分割法、基于锚点的方法和基于参数的方法。语义分割方法(如 SCNN [9]、SAD [10] 和 Curvelanes-NAS [11])使用像素级预测来提高准确性,但计算复杂度较高。基于锚点的方法,如 CLRNet [5]、GANet [6]、E2E-LMD [12]、IntRA-KD [13]、UFLD/UFLDV2 [14,15]、CondLaneNet [16] 和 LaneATT [17],速度较快,但在复杂场景下准确性较低。基于参数的方法,如 "通过曲线建模进行高效车道检测"[18] 使用曲线锚点来提高效率,但缺乏最佳准确性。我们在先前工作的基础上,解决了准确性和复杂性方面的限制。
METHODOLOGY
Focusing Sampling
Motivation. 现有的均匀点采样策略未能正确权衡对稳健车道检测至关重要的视觉视角。这些方法对所有图像区域一视同仁,尽管车道在远处的消失点包含更有价值的语义信息,尤其是沿曲线[19]。为了解决在理解即将到来的车道方面存在的不足,我们提出了一种聚焦采样技术,其灵感来自于熟练的驾驶员对道路远处的视觉关注。就像驾驶员通过注视前方来预测弯道[1]一样,聚焦取样技术在强调远处细节的同时,仍会检查附近的点。如图 3 所示,这种新颖的方法能正确反映完整的车道几何形状,并能处理复杂的转弯和弯道情况。均匀采样有可能丢失对车道预测至关重要的数据和语义,而聚焦采样可以有针对性地改变均匀采样的局限性。
Formulation. 在均匀采样的基础上,我们提出使用基于对数的聚焦采样,附录 A.1 图 8 对此进行了直观的比较。这种聚焦抽样的计算公式为
其中 。是网络中的特征点编号。为了在此范围内生成聚焦采样点,需要对特征分布进行对数变换,将原始特征点映射为整数采样点。表示图像高度,是采样点的数量,而 表示在个数据点上在 0 到 1 的范围内生成的的算术序列。这种对数方法可以筛选出有价值的语义信息。由于对数离散法的应用可能会产生重复的整数值,因此后处理包括样本点的去重。关于特征离散化过程和结果分布的完整细节,请参见代码和附录图 8。
Positional Non-local Block and Position Enhanced
FPN structure
Motivation. CLRNet 主要采用特征金字塔网络(FPN)架构进行车道检测[5]。虽然 FPN 擅长多尺度特征提取,但也有一定的局限性。具体来说,较深的网络层强调语义表征,而较浅的网络层则优先考虑细粒度细节,最终导致对微小目标的检测效果不佳。为了增强 FPN,我们受 PANet 和 Mask R-CNN 的增强功能[21, 22]启发,引入了一种吸收非局部块的结构[20]。这种方法为网络注入了上下文线索,同时保留了网络的深度并增强了其多尺度特性。此外,基于车道标记目标的独特性,我们提出了位置增强型 FPN(PEFPN)模块,以实现全局语义与车道坐标建模的紧密结合。如图 2 所示,位置非局部块(在附录 A.1 图 7 的基础上扩展)将位置信息直接注入增强型 FPN 的多尺度特征图中。
Formulation. 坐标图方程利用空间索引和来索引特征图中的每个像素位置,其中在高度维度上垂直迭代,在宽度维度上水平迭代,具体来说,的范围从 1 到,索引每一行,而 的范围从 1 到。x坐标图计算如下:
类似地,y坐标映射为:
这种位置非局部块提供了一组丰富的特征,既能编码全局上下文,也能编码精确的空间位置。此外,我们还在此架构的顶部上应用了所提出的聚焦采样技术,以便在特征提取过程中选择性地集中于车道片段。这些样本为追踪车道坐标和方向性提供了强有力的线索。FENetV1 融合了 PEFPN 和 Focusing Sampling,通过直接坐标注入和车道位置引导的 Focusing Sampling 统一了精细坐标建模。附录 A.1 中的烧蚀实验表明,PEFPN 是根据 FENetV1 中引入的车道检测聚焦视角设计的独特架构。
Focusing Enhanced Network
Motivation. 在 FENetV1 中,PEFPN 的制定取决于位置非局部块和增强型 FPN 架构的综合设计。利用车道检测目标的独特性,基于坐标图信息设计了位置非局部块,提供了有效的特征提取。然而,消融实验(详见附录 A.1)显示,在没有聚焦采样的情况下,采用标准非局部块而不是位置非局部块可获得类似的性能。这就验证了来自车道坐标的方向线索不一定要在非局部位置注入。因此,在提高网络效率的指导下,我们设计了 FENetV2,以进一步研究使用标准非局部块和定向 IoU 的聚焦增强型 FEFPN(FEFPN)。因此,在设计 FENetV2 的过程中,我们通过标准非局部块、聚焦增强模块和定向 IoU 方案探索了更有效的替代方案,以在提高计算节俭度的同时保持功效。
FEFPN Structure. 如图2所示,大多数架构配置都与 PEFPN 非常相似,区别在于在构造内部层(Inter0、Inter1、Inter2)期间使用标准非局部块。
Lane Directional Intersection over Union (D-IoU)
Module
Motivation. LineIoU 只考虑距离而不考虑方向关系[5]。我们的 D-IoU 模块(图 4)可消除方向差异,以提高准确性。
Formulation. 如图所示,D-IoU 包括位置 IoU()、方向左 IoU()和方向右 IoU()。是 CLRNet 中的Line IOU 模块。和 分别表示到地面真值点的左侧和右侧的距离IoU。为
表示每个点的像素扩展量。扩展 个像素后,和别给出预测点的左坐标和右坐标。是 的镜像映射,定义相似,不再赘述。
D-IoU使用系数α、β、γ组合这些:
这为精确的车道对齐提供了距离和方向精度。
Training and Inference Details
Training Loss. FENetV1中的总训练损失是几个损失分量的加权组合:
是 PIoU 损失,由 加权,使预测结果与地面实况一致。是分类的焦点损失(focal loss)。是预测起点、角度和车道长度的回归损失。是语义分割损失。权重 平衡了各部分的贡献。FENetV2 的训练损失为
其中,是 D-IoU 损失,由 加权,使预测与地面实况的位置和方向保持一致。
Inference. 为了得出最终的车道检测结果,我们采用了非最大抑制(NMS)来去除重叠预测,只留下最优车道[17]。我们还评估了一种无 NMS 方法,即在一对一分配时将 top-k 设置为 1。这些改进提取了最准确的车道。
Augmenting Evaluation via Partial Field of View
车道检测模型的现有评估指标在满足实际驾驶需求方面存在严重的局限性。像素准确性和标准 mAP 等指标对车道标记预测中的所有像素一视同仁,尽管它们在实际安全影响方面存在显著差异。然而,如前所述,经验丰富的驾驶员会优先注视远处的道路区域,这一策略对于预测路径几何形状和必要的转向调整至关重要。为了解决目前的评估与驾驶所需的车道理解之间的不匹配问题,我们建议通过部分视野度量(Partial Field of View metric)来增强评估。这种实用方法在对无关的上部内容进行预处理裁剪后,将下半部分图像细分为部分视图(fractional views)。如图 5 所示,通过量化关键远端部分视图( key distal fraction views)(顶部 1/2 和顶部 1/3 部分)的精度,该指标可以更好地衡量与人类驾驶员视线相对应的最关键车道区域的精度。部分视野分析更接近人类感知。它是一种可解释的增强方法,通过道路注视模式的实际视角来衡量车道检测能力。
EXPERIMENT
Datasets
在本实验中,我们使用了车道检测中最常用的数据集: CULane [9] 和 LLAMAS [23]。CULane 是目前车道检测中最具挑战性的大规模数据集之一。LLAMAS 是一个全面的车道检测数据集,包含 100,000 多张图像。LLAMAS 中的车道标记采用高精度地图进行自动标注。
Implementation Details
本研究主要使用 DLA34 作为预训练的骨干网络[24]。在 DLA34 骨干网络下,CULane 数据集设定为迭代 15 个历元,而 LLAMAS 设定为 20 个历元。初始学习率设置为 1e3,优化器为 AdamW,功率设置为 0.9。车道先验数 (N) 为 72,采样点数为 36。、和 的扩展像素()均设为 15。分配成本系数设为 = 1。
Evaluation Metrics
F1 and mF1. 在 F1 检验中,计算预测结果与地面实况之间的 IoU,当 IoU 临界值大于 0.5 时,则认为是真阳性。F1 的定义是
关于 COCO 检测指标,我们主要继续使用 mF1 指标作为 CLRNet 的后续指标,但不仅要衡量整体性能,还要衡量场景性能,从而对预测精度和车道特征捕捉进行更精确的分析。的定义如下
其中,、、分别对应 IoU 临界值为 0.5、0.55、......和 0.95 时的 F1 测试值。这是在不同场景下更精确的测量值,对优化迭代有显著效果。
Comparison with State-of-the-Art Results
Performance on CULane. 我们提出的 FENet 在 CULane 基准上取得了最先进的结果,超过了之前的方法。如表 1 所示,FENetV1 的得分为 63.63,为 56.27,比 CLRNet 的 高 0.7,高 0.63。FENetV2 的 分数为 63.50,为 56.17,这表明 FENetV1 和 FENetV2 的车道检测精度很高,尤其是在更严格的评估阈值下。
Performance by Field of View. 如表 2 所示,与最先进的 CLRNet 模型相比,FENetV2 在整个视野、上半视野和上三分之一视野的弯道和远处车道检测方面都有显著改进。重要的是,在绝大多数驾驶场景中,弯道特征主要是从远处反映出来的。因此,这些改进主要代表了对远处弯曲车道的感知能力的增强,这对安全驾驶至关重要。具体而言,如标有 * 的数据所示,FENetV2 在检测各自视场中具有挑战性的远处弯曲车道时,分数分别高出 2.67、5.66 和 6.01。这凸显了 FENetV2 的 D-IoU 损失函数和 FEFPN 模块在精确识别棘手的远端和弯曲车道方面的特殊优势。附录 A.1 中的图 6 提供了一些辅助示例结果。
虽然 FENetV1 的 mF1 总分略高,但我们认为 FENetV2 更适合实际自动驾驶系统,而且更可靠,因为它专门用于远距离车道边界回归。准确定位前方车道线对于及时做出车辆控制反应至关重要,尤其是在车速较快的情况下。相比之下,虽然 FENetV1 的 PEFPN 在一般车道识别方面表现出优势,但在精确边界定位方面存在局限。总之,FENetV2 与之前的先进模型不同,它擅长远距离车道回归,因此在现实世界中表现出最佳的车道检测能力。对于需要瞬间反应的实际自主导航,我们强烈推荐使用 FENetV2,而不是现有的方法甚至是基准 FENetV1 模型。
Performance on LLAMAS. 如表 3 所示,本研究提出的创新 FENetV2 结构在 LLAMAS 上达到了新的技术水平,F1@75 得分为 85.63,mF1 得分为 71.85。这些主要评分参数结果均高于 CLRNet,其中 F1@75 分数比 CLRNet 高 0.3,mF1 分数比 CLRNet 高 0.64。这也表明我们的方法提高了车道检测的准确性。
CONCLUSION
受人类驾驶焦点的启发,本研究针对自主导航的车道检测挑战,率先推出了 "聚焦增强网络"、采样策略、优化损失计算和精细评估指标。实验证明,与现有的统一方法不同,强调关键的远距离几何细节不仅能显著提高基准精度,还能提高对安全至关重要的实际弯道/远距离车道识别能力。进步来自于模仿熟练驾驶员视觉模式的隔离透视感知环境。局限性提供了机会,包括完善注意力区域、探索丰富的坐标表征、收集实际驾驶数据进行分析,以及协调利用互补优势的双重框架--进一步推动现实世界的突破。有了模仿人类的视觉感知和理解能力作为指导,车道检测的前沿领域就能朝着实现可靠的自动车辆控制的方向快速前进。
APPENDIX
Ablation Studies
为了验证整个 FENetV1 和 FENetV2 模型的每个组成部分在整个实验中的贡献和作用,我们在 CULane 数据集上分别测试了每个创新方案,以显示其相应的性能。
Overall Ablation Study
通过消融研究,我们分析了附录 A.1 表 4 中建议的 FENetV1 架构,以分析 PEFPN、聚焦采样和 D-IoU 模块的贡献。基线 FENetV1 的 mF1 为 55.64。加入 PEFPN 和 Focusing Sampling 模块后,mF1 上升到 56.27,显示了它们在提供位置感知特征和强调困难示例方面的优势。然而,令人惊讶的是,在 PEFPN 和 Focusing Sampling 模块基础上加入 D-IoU 模块后,mF1 略有下降,为 56.04。我们假设,这种反直觉的结果是由于 PEFPN 的位置感知能力与 D-IoU 的方向编码之间存在功能重叠。具体来说,PEFPN 中的位置非局部块已经将坐标信息整合到了多尺度特征中。因此,D-IoU 的方向建模变得有些多余,并干扰了 PEFPN 的位置编码。PEFPN 对位置和方向的这种整合可能解释了为什么随后添加 D-IoU 会因功能重复而产生不利影响。
在附录表 5 中,对我们提出的 FENetV2 模型各组成部分的贡献进行了进一步的消融实验。基线架构的 mF1 为 55.64。加入 FEFPN 模块后,通过提供更丰富的多尺度特征,mF1 提高到 56.11。加入 "聚焦采样"(Focusing Sampling)模块后,通过强调坚硬的远端示例,mF1 进一步提高到 56.15。最后,用 D-IoU 损失替换 IoU 损失,通过编码方向线索将 mF1 提高到 56.17。这些稳定的改进验证了 FEFPN 处理上下文特征、聚焦采样处理远端车道以及 D-IoU 区分方向性的优势。I
总之,FENetV1 的消融研究表明,通过 PEFPN 使用位置感知表征的增强型 FPN,以及通过聚焦采样强调硬采样的互补优势,可将 mf1 提高到 56.27。然而,以位置非局部块为理念的 D-IoU 可能会与 PEFPN 中已编码的位置建模出现冗余,从而导致 mF1 性能略有下降。与此相反,在 FENetV2 消融实验中,每种成分都带来了稳定的 mF1 增强,这验证了它们在吸收丰富的多尺度特征、突出具有挑战性的区域以及在我们的 FENetV2 框架中嵌入方向线索方面的功效。尽管与 FENetV1 相比,mF1 略有下降,但手稿中的场景拟合精度却更胜一筹。这项分析对位置非局部块和 D-IoU 方案之间的架构权衡提出了建设性的看法。
Ablation Study of Focusing Sampling
为了进一步分析我们提出的聚焦取样技术的功效,我们在附录表 6 中对采用和不采用聚焦取样技术的模型进行了消融研究比较。以均匀采样为基准,模型的 mF1 为 55.64。用聚焦采样取代均匀采样后,模型的 mF1 稍微提高到 55.78,这表明聚焦采样在强调具有挑战性的示例方面具有优势。当与我们的特征增强型 FPN 模块结合使用时,聚焦采样的优势更加明显。在均匀采样的情况下,FEFPN 和 PEFPN 模型的 mF1 得分相近,均为 56.11。然而,加入聚焦采样后,它们的 mF1 分别提高到 56.15 和 56.27。这表明,聚焦采样通过将训练集中在最困难的远端区域,更好地利用了 FEFPN 和 PEFPN 提供的丰富车道特征。值得注意的是,在没有聚焦采样的情况下,FEFPN 和 PEFPN 达到了相同的 mF1。这表明,在统一聚焦的情况下,两种 FPN 变体都无法充分利用其学习到的特征。然而,通过集中注意力,PEFPN 整合了位置信息,从而提高了性能,超过了 FEFPN。总之,这些消融研究验证了聚焦取样可以有效地补充高级 FPN 模块,实现对困难例子的集中学习。当与编码多尺度语义和空间坐标的 FPN 设计相结合时,其收益会进一步扩大。
图
图 1. 熟练的驾驶员会将视线集中在道路前方。左上方的图像显示了摄像头的全貌,而左下方的图像则直观地显示了经验丰富的驾驶员的视线位置--沿着道路和车道线遥望前方。
图 2. FENet 车道检测框架的结构,该框架使用 DLA34 主干网和增强型 FPN。输入层馈入集成了位置非局部块(用于 FENetV1)或标准非局部块(用于 FENetV2)的内部层,以捕捉空间上下文。内部层连接到通过聚焦采样和标准 IOU 损失(用于 FENetV1)或定向 IOU 损失(用于 FENetV2)的输出层。FENetV1 (黄色通路)和 FENetV2 (蓝色通路)共用绿色通路,但有不同的辅助模块。
图 3. 聚焦取样(红点)与均匀取样(蓝点)的直观对比。聚焦取样策略性地强调了车道上关键的远处消失点,同时保留了附近的信息点。这考虑到了透视几何,而不像标准的均匀采样那样对所有区域进行同等加权。
图 4. D-IoU 损失。D-IoU 损失通过比较地面实况车道和预测车道来评估模型车道预测的准确性。它整合了车道沿线采样点的扩展车道段之间的 IoU。这提供了一个方向性的局部损失度量,考虑了整个车道几何范围内的预测精度。
图 5. 提出的部分视场度量方法通过在预处理裁剪后将下半部分图像细分为远端部分视图来增强评估效果。在(a)上半部分视野和(b)上半部分 1/3 视野评估模型精度符合驾驶前视需求。这一实用指标可衡量车道检测能力,超越现有方法。
图 6. 曲线、远处、隐藏和磨损的车道线在一些困难样本上的检测效果与地面实况的比较。每幅图像的右上角是人眼对前方焦点位置放大 4 倍像素后的结果。
图 7 位置非局部图块示意图。额外的坐标图融合在原始非本地块的后部。
图 8. 聚焦采样与均匀采样的直观对比。图中黑点表示 72 个特征点。蓝点表示通过均匀采样选取的特征点,红点表示通过聚焦采样选取的特征点。这项工作中的特征点聚焦采样是从视觉场景远处人口稠密的特征点区域开始,逐渐向观察者附近分布较稀疏的特征点区域推进。
表
表 1. FENet 框架以高效的 GFlops 实现了最先进的 CULane 性能。FENetV1 获得了最高的 mF1 和 F1@75 分数,超过了包括最佳 CLRNet 在内的所有方法,展示了先进的车道识别能力。FENetV2 的指标与 V1 非常接近,我们更推荐将其用于实际应用,其优势将在后续章节中分析。
表 2. 视野(Field of View)的性能。与最佳 CLRNet 相比,FENet 在整个视图、顶部 1/2 视图和顶部 1/3 视图上都有 mF1 的提升。曲线和远处车道的改进尤为明显,FENetV2 在这些视图上的曲线检测分别提高了 2.67、5.66 和 6.01。这凸显了 FENetV2 在具有挑战性的曲线上与之前的作品相比所具有的优势。总体而言,由于 FENetV2 的 D-IOU 损失和 FEFPN 能够优化边界定位,因此在回归精度上超过了 V1。然而,由于 FENetV1 的 PEFPN 能够有效推断空间布局,因此它在车道识别本身而非回归方面表现出更强的能力。
表 3. FENetV2 创造了最先进的 LLAMAS 新结果,证明了先进的车道检测能力。我们的方法利用 DLA-34 主干网创造了最高 mF1,同时在重要的长距离 F1@75 上超过了所有方法。
表 4. FENetV1 方法中各模块的效果。结果基于 CULane。
表 5. FENetV2 方法中各模块的效果。结果基于 CULane。
表 6. PEFPN(FENetV1) 和 FEFPN(FENetV2) 聚焦取样法的消融研究。结果基于 CULane。