【论文阅读】CLRKDNet: Speeding up Lane Detection with Knowledge Distillation

Abstract

        车道是智能车辆视觉感知系统不可或缺的组成部分,在安全导航中起着举足轻重的作用。在车道检测任务中,兼顾准确性和实时性至关重要,但现有方法往往舍本逐末。为了解决这一权衡问题,我们引入了 CLRKDNet,这是一种兼顾检测准确性和实时性的精简模型。最先进的模型 CLRNet 在各种数据集上都表现出了卓越的性能,但由于其特征金字塔网络(FPN)和多层检测头架构,其计算开销很大。我们的方法简化了 FPN 结构和检测头,对它们进行了重新设计,将新颖的师生蒸馏过程与新引入的一系列蒸馏损失结合在一起。这种组合可将推理时间缩短 60%,同时保持与 CLRNet 相当的检测精度。这种准确性和速度之间的战略平衡使 CLRKDNet 成为自动驾驶应用中实时车道检测任务的可行解决方案。代码和模型请访问:https://github.com/weiqingq/CLRKDNet.

I. INTRODUCTION

车道检测 [28, 14] 是智能交通(包括自动驾驶和高级驾驶辅助系统 (ADAS))的一个重要方面。车道是道路交通中不可或缺的元素,它划定了车辆的行驶路径,促进了更安全、更顺畅的驾驶条件。检测方法一般分为两类:基于模型和基于特征。基于模型的方法利用预定义的车道模型,将车道识别解释为参数估计问题,这有助于降低对噪声的敏感性,并限制对广泛的局部图像区域的依赖。相比之下,基于特征的方法则根据边缘梯度、宽度、强度和颜色等特定特征,将单个图像点划分为车道或非车道。不过,这种策略需要有明显的车道边缘和强烈的颜色对比才能准确检测。这两种方法的步骤顺序相似:提取感兴趣区域 (ROI)、图像预处理、特征提取和车道拟合。

随着深度学习[7, 13]的出现,传统的车道检测方法在很大程度上已被更先进的端到端深度学习方法所取代。这些现代方法消除了人工特征工程的需要,提高了检测系统的鲁棒性和有效性。当代车道检测技术大致可分为四类:基于分割的方法、基于参数曲线的方法、基于关键点的方法和基于锚点的方法。基于分割的方法 [15, 30, 24] 将车道检测视为一项语义分割任务,而基于参数曲线的方法 [1, 21, 10] 则使用曲线参数对车道进行建模,并通过参数回归对其进行检测。基于关键点的方法 [18] 将车道检测作为一个关键点估计问题,然后进行整合。最后,基于锚点的方法 [20, 29, 16, 17, 9, 25] 采用线形锚点,从这些预定义的锚点回归采样点的偏移量。

尽管利用深度学习技术在车道检测方面取得了长足进步,但仍有进一步提高的机会。车道线通常会在图像中延伸很长的像素长度,并在局部尺度上表现出与路面不同的特征,这就强调了提取全局和局部特征以进行准确检测的必要性。Zheng 等人的论文[29]引入了跨层细化网络(CLRNet),同时利用高层语义和低层细节特征。它首先利用高级特征进行粗略定位,然后利用细节特征进行细化,以实现精确的车道定位。ROIGather 模块通过将 ROI 车道特征与整个特征图联系起来,进一步捕捉广泛的全局上下文信息,与以前的方法相比,大大提高了检测性能。然而,CLRNet 的复杂性,包括其特征金字塔网络(FPN)和多个检测头,增加了推理时间,阻碍了对自动驾驶汽车至关重要的实时性能。为此,我们开发了 CLRKDNet,该模型旨在缩短推理时间,同时保持准确性。CLRKDNet 简化了 FPN 架构,选择了精简的特征聚合网络,并减少了检测头的数量,从而消除了迭代改进过程。该模型使用 CLRNet 作为教师模型,结合了新颖的知识蒸馏程序,以提高精简学生模型的性能,并抵消检测精度的潜在下降。这种多层提炼包括中间特征层、先验嵌入和检测头对数,确保 CLRKDNet 在以更快速度运行的同时,达到与 CLRNet 相当的检测精度。更多详情,请参阅 “方法 ”部分 III。

我们在 CULane [15] 和 TuSimple [22] 数据集上进行了大量实验,验证了我们提出的方法的先进性,并报告了在这两个数据集上的最新结果。此外,全面的消融研究证实了我们框架中每个组件的功效。我们的主要贡献总结如下:

  • 我们通过简化特征增强模块和减少 CLRNet 中的检测头数量,显著提高了计算效率,从而将推理速度提高了 60%。
  • 我们引入了一种新颖的知识提炼技术,即我们的精简学生模型 CLRKDNet 可利用教师模型 CLRNet 的中间特征层、先验嵌入和最终检测头 logits 来增强其车道检测能力。
  • 我们在各种车道检测数据集上进行了广泛的实验,以验证我们提出的方法 CLRKDNet 的有效性,并进行了全面的消融研究,以验证每个模块对模型性能的贡献。

II. RELATED WORK

A. Lane Detection

1) Segmentation-based Methods: 基于分割的方法将车道检测视为像素分类任务,将车道线区域从背景中分离出来。例如,SCNN [15] 利用具有信息传递机制的语义分割框架来改善车道检测中的空间关系,但其实时应用受到速度的限制。同样,RESA [30] 通过实时特征聚合模块提高了性能,但由于其像素级处理,对计算要求仍然很高。

2) Parametric Curve-based Methods:  这些方法使用曲线参数表示车道,然后与车道数据拟合。LSTR [10] 采用 Transformer 架构来捕捉细而长的车道特征和较宽的道路特征。PolyLaneNet [21] 和其他工作[1] 分别利用多项式曲线和贝塞尔曲线进行车道检测,推理速度快,但对参数误差敏感。

3) Keypoint-based Methods:  基于关键点的方法通过识别关键点然后将其聚类为车道实例来检测车道线。PINet [6] 和类似方法 [23, 18] 为此使用了先进的网络和聚类算法,但需要密集的后处理,从而增加了计算负荷。

4) Anchor-based Methods: 基于锚点的方法依靠预定义的线或行锚点来引导车道检测。Line-CNN [8] 和 LaneATT [20] 使用带有注意机制的行锚来提高准确性和效率。相反,基于行锚的方法(如 UFLD [16] 和 CondLaneNet [9])虽然简单快捷,但由于难以准确识别初始车道点,因此在复杂场景中可能难以发挥作用。CLRNet [29] 及其扩展工作 [4] 提出了一种跨层优化车道检测网络,该网络利用高层特征检测车道线,并利用低层特征调整车道线位置。

B. Knowledge Distillation

知识蒸馏是指将复杂、往往繁琐的模型中的见解转移到更紧凑、计算效率更高的模型中,从而提高较小模型的性能和可推广性。这项技术最初由 Hinton 等人于 2015 年提出[3]。多年来,它已发展成多种方法,包括采用软标签和量身定制的损失函数来完善学习过程。在计算机视觉领域,知识蒸馏大大提高了较小模型在物体检测、图像分类和分割等各种任务中的能力。具体到车道检测,Hou 等人提出了自我注意力蒸馏(SAD)[5],该方法采用自上而下和分层注意力蒸馏来增强表征学习和模型功效。值得注意的是,我们的蒸馏方法优于 SAD,在 CULane 数据集上获得的 F1 分数比 SAD 高出近 10 个百分点。

III. METHODS

A. CLRKDNet

1) Teacher Model:  我们的方法采用复杂的 CLRNet[29] 架构作为教师模型,其中集成了诸如 ResNet 或 DLA 等稳健的骨干网络。这种整合使骨干网络能够提取深度特征,然后由特征金字塔网络(FPN)进行处理,生成不同分辨率的多尺度特征图,包括输入图像大小的\frac{1}{8}\frac{1}{16}\frac{1}{32}。这种方法能全面反映全局内容和局部细节。CLRNet 通过配置具有可学习参数 (x_i,y_i,\theta _i)的先验值初始化车道检测,其中 (x_i,y_i)定义了起始坐标,\theta _i是相对于 x 轴的方向。符号i代表M个先验参数列表中的一个先验参数,其中M表示先验参数的总数。这些对识别潜在车道路径至关重要的先验信息将通过多个卷积层和全连接层在不同尺度上进行处理。如图 2 所示,这种多层处理会产生分类和回归输出,用于先验调整。模型会经历三个改进周期,这些调整会重新校准先验,利用更高分辨率的特征图来提高准确性。在整个过程中,交叉注意机制会整合上下文信息,最终精确计算多个水平行的 x坐标,从而划定车道路径。

为了解决复杂的车道检测问题,CLRNet 采用了全面的损失函数L,结合了用于先验细化的 smooth-L1、用于分类的焦点损失和用于分割的交叉熵损失。此外,新颖的 LineIoU 损失还专门增强了用于车道预测的交并比(intersection-overunion )指标,从而提高了模型的精度。

L_{xyl\theta }表示平滑-L1 损失,L_{cls}是先验分类的焦点损失,L_{seg}是辅助分割的辅助损失,L_{LaneIoU}是为车道线专门设计的 IOU 损失。该损失函数在训练过程中的权重见第 III-D 小节。

2) Student Model:   CLRKDNet 是先进的 CLRNet 模型的精简版,旨在满足实时自动驾驶应用的苛刻要求,同时管理车道检测性能。它利用了 CLRNet 的先进网络设计,包括其主干网和检测头机制,但对其架构进行了重大优化,以提高效率。

在特征增强部分,CLRNet 通过 FPN 集成了多尺度、语义丰富的特征,我们的 CLRKDNet 部署了一个精简的特征聚合网络,以减轻计算负担。如图 2 所示,该网络专门用于压缩从骨干网中提取的特征的通道大小,从而在不增加计算量的情况下提高特征的表征质量。这一创新不仅减少了权重参数的数量,还降低了计算占用空间,使特征整合过程更加迅速。

我们的 CLRKDNet 的检测头也进行了效率优化。CLRNet 的多个检测头和可学习前验需要大量的计算资源进行迭代改进,而我们的 CLRKDNet 则不同,它采用的是具有一组固定前验的单一检测头。这种单一检测头利用一组静态前验,无需进行昂贵的迭代改进过程。单一检测头的结构如图 3 所示。实验分析表明,这种简化使我们的 CLRKDNnet 的推理速度提高了 60%,而评估分数仅略有下降。

知识蒸馏进一步弥补了简化架构带来的检测性能下降。我们提出的知识转移方法利用了从教师模型 CLRNet 的中间层以及检测头的前验和最终输出中提炼出的见解。通过这种多级蒸馏过程,我们的 CLRKDNet 模型非常接近 CLRNet 所设定的基准,而运行的计算成本仅为 CLRNet 的一小部分。

B. Attention Map Distillation

1) Activation Attention Transfer: 在我们的车道检测模型中,知识蒸馏是通过基于激活的注意机制来实现的[27]。对于卷积神经网络的每n层,我们提取激活输出,表示为 A_n\in \mathbb{R} ^{C_n\times H_n\times W_n},其中 C_nH_nW_n 分别对应激活张量的通道数、高度和宽度。

为了将知识从教师模型提炼到学生模型,我们从这些激活张量中生成了空间注意力图。这些映射图是浓缩的表征,可突出输入图像中被模型视为最关键的区域。这些映射图是通过应用映射函数 G_{​{sum}^p(A_n)}=\sum_{j=1}^{C_n}| A_{n,j} |^p(其中每个A_{n,j}表示通道维度中A_n的第j个切片,p > 1)提炼出来的。借鉴其他论文[5]的先例,我们选择p = 2来加强对最明显特征的强调,从而以类似于教师模型的方式引导学生模型的关注点。图 2 显示了这一注意力地图提炼的过程。在整个训练阶段,学生模型的注意力图会逐步调整以匹配教师模型的注意力图,并使用损失函数将差异最小化。

2) Attention Transfer Loss:   在我们的车道检测模型中,注意力图的提炼是通过注意力转移损失函数来量化的,该函数专门测量学生模型和教师模型的注意力图之间的差异。对于集合N中以 n 为索引的每个配对层(代表每个师生激活层对的索引),来自学生模型A_{n}^{S}和教师模型A_{n}^{T}的注意力图首先被转换为矢量化形式,分别表示为Q_{n}^{S}Q_{n}^{T}。这些矢量化形式是将上一节中的映射函数G 应用于激活张量,并将得到的注意力图重塑为矢量后产生的。

其中,Q_{n}^{S}=vec(G(A_n^S))Q_{n}^{T}=vec(G(A_n^T))分别是学生模型和教师模型之间第n个注意力图对的向量化形式。术语 \left \| \cdot \right \|_2表示 ℓ2 准则,用于对每个矢量化注意力图进行归一化处理,确保损失计算不受注意力图尺度的影响,而只关注其模式。参数p设为 2,与注意力图计算中使用的二度映射函数G保持一致,经验表明,二度映射函数G可以促进有效的知识转移。 

C. Knowledge Transfer on Detection Head

在注意力地图蒸馏过程之后,我们的目标是进一步提高检测精度,缩小模型之间的差距。为此,我们为检测头设计了双重蒸馏程序,采用先验嵌入蒸馏和对数蒸馏。这些机制确保了 CLRKDNet 尽管采用了精简架构,但仍能有效保留其教师模型 CLRNet 的复杂检测能力。先验嵌入蒸馏使学生的先验与教师的精炼输出保持一致,而对数蒸馏则测量并最小化输出对数的差异,从而引导 CLRKDNet 的预测与 CLRNet 的预测紧密匹配。

1) Prior Embedding Distillation: CLRNet 和 CLRKDNet 都使用定义车道线几何参数(包括初始坐标(x^i,y^i)和相对于 x 轴的方向 \theta ^i)的嵌入式先验值来初始化其检测头。由骨干和特征融合网络生成的这些先验和特征图指导 ROI 模块准确收集每个车道像素的附近特征。这一收集过程将全局内容与丰富的语义信息相结合,确保了全面的检测能力。CLRNet 在其检测头的各层中完善这些先验信息,并对其进行迭代增强,而 CLRKDNet 则直接将这些先验信息的单个集合用于检测输出。

这些先验的蒸馏是通过比较学生的初始先验和教师模型的细化先验之间的先验嵌入来完成的。具体来说,我们使用L2准则损失函数对嵌入进行比较,嵌入格式为维度为[M, 3]的张量,其中M代表初始先验的数量:

这里,P_S^iP_T^i分别代表来自学生模型和教师模型的第i个先验向量,每个先验向量包含初始坐标和方向(x^i,y^i,\theta ^i)。这种L2准则比较测量了每对相应先验向量之间的欧氏距离,从而有效地将 CLRKDNet 的静态先验向量与 CLRNet 的动态精炼先验向量对齐。这种对齐确保了学生模型从与教师迭代过程输出相当的细化水平开始,有效弥合了两个模型在动态细化能力上的差距。 

2) Logit Distillation:  在将模型输出转化为预测线路之前,对数蒸馏侧重于检测头的最终输出。如图 3 所示,此类 Logit 包括分类分数和几何特征,如起始坐标(x^i,y^i)、角度\theta ^i、车道长度l^i以及预测车道与车道先验之间的水平偏移差\Delta x^i。对数蒸馏过程包括将学生探测头的这些逻辑输出与教师模型的逻辑输出进行比较,并计算平均平方误差 (MSE),以衡量并最小化两者之间的差异

这种损失确保了 CLRKDNet 的简化检测头(缺乏 CLRNet 的多个细化阶段)仍能产生高精确度的输出。MSE 对较大的差异很敏感,在微调学生模型的输出以接近教师模型的输出方面特别有效,从而弥补了迭代细化层的缺失。这种特殊的损失可以写成

 其中M是先验数。x_S^i,y_S^i,\theta _S^i,l_S^i,\Delta x_S^i是探测头的几何输出,包括原点坐标、方向、长度和水平差。x_T^i,y_T^i,\theta _T^i,l_T^i,\Delta x_T^i是来自教师模型的对应输出。

D. Training Details

1) Training Loss:

• Distillation Loss (L_{dis}): 总蒸馏损失是三个关键损失的总和:注意力地图转移损失、车道先验嵌入损失和检测头对数损失。这种综合损失的计算公式如下

系数 w_{att},w_{prior},w_{logit}调整了相应蒸馏损失项的影响,以优化从 CLRNet 到 CLRKDNet 的知识转移。有关蒸馏损失的更多详情,请参阅第 IV-C 节。 

• Classification and Regression Loss (L_{CR}): 对于一般损失的计算,我们沿用 CLRNet 的公式 1,损失权重设置如下:\lambda _{xyl\theta }=0.2,\lambda _{cls}=2,\lambda _{seg}=1\lambda _{LineIOU}=2

2) Knowledge Distillation Setups: 在对 CULane 数据集进行训练时,采用 ResNet18 主干网的 CLRKDNet 在 CLRNet 的 ResNet101 主干网模型上进行训练,其 F1 分数达到 80.13%。同时,使用 DLA34 主干网的 CLRKDNet 是在经过重新训练的 CLRNet 的 DLA34 主干网模型上进行训练的,该模型在去除帧冗余后的 F1 分数达到了 80.71%。对于 TuSimple 数据集,由于 ResNet18 的整体性能最佳,我们使用具有 ResNet18 主干网的 CLRNet 来训练 CLRKDNet,并保持相同的主干网。

根据 Hiroto 的论文[4],在对 CULane 数据集进行训练之前,先删除了冗余训练数据。平均像素值与上一帧的差异低于 15 的帧被丢弃,剩下 55,698 帧(62.7%)用于训练。这一过程减轻了过拟合,并将使用 ResNet18 主干网的 CLRKDNet 的基线 F1 分数提高到 79.05%,与未去除冗余数据的模型所取得的 78.40% 的基线分数相比,提高了约 0.6%。在使用 DLA34 主干网时,我们的 CLRKDNet 基线模型在去除冗余数据后的 F1 分数为 80.13%,接近教师模型 CLRNet 的 80.47%。在去除冗余数据重新训练 CLRNet 后,我们的 F1 分数达到了 80.71%,并将其作为新的教师模型权重。

IV. EXPERIMENTS

A. Datasets

1) CULane: 是一个广泛的数据集,包含 88,880 张训练图像和 34,680 张测试图像,所有图像格式的分辨率均为 1640x590 像素。该数据集涵盖各种驾驶条件,包括城市和高速公路场景,并将测试图像分为夜间、拥挤和弯曲车道等场景。

2) TuSimple: 它以高速公路场景为重点,包括 3,268 幅训练图像、358 幅验证图像和 2,782 幅测试图像,每幅图像的分辨率均为 1280x720 像素。

B. Evaluation Metrics

在我们的研究中,车道检测方法的功效是通过准确度(Acc)和 F1 分数来量化的。

1) Accuracy (Acc): Acc 量化了正确识别车道点的比例。如果超过 85% 的预测点位于地面真实(Ground Truth)车道标记的 20 个像素以内,则该预测被认为是准确的[22]。准确度的计算公式为

其中,C_{clip}表示地面实况 20 像素边界内的点数,S_{clip} 是图像中车道点的总数。 

2) F1-score: 它用于理解精确度和召回率之间的平衡,其中,交并比(IoU)大于设定阈值的预测被视为真阳性(TP)[15]。其计算公式为

其中精确度和召回率由以下因素决定:

 TP 表示真阳性,FP 表示假阳性,FN 表示假阴性。

C. Implementation Details

在本研究中,我们采用了基于 ResNet [2] 和 DLA [26] 架构的教师和学生模型知识提炼技术,并在 ImageNet 上进行了预训练。输入图像被调整为一致的320\times 800分辨率,以便统一处理。按照既定方法 [29][9][18] ,采用了随机仿射变换和随机水平翻转等数据增强方法。模型优化采用了 AdamW [11] 优化器和余弦衰减学习率策略 [12],初始值为1\times 10^{-3}。根据每个数据集的复杂程度,CULane 数据集的训练持续时间设定为 20 个epochs,TuSimple 数据集的训练持续时间设定为 90 个epochs。

教师模型采用了原始的 CLRNet 实现,确保了强大的车道检测能力。所有计算任务均在一个使用 PyTorch 的 RTX 3090 GPU 上执行。公式 5 中的加权蒸馏损失计算设置如下:w_{att}=1w_{prior}=3w_{logit}=5。初始先验数M = 192,配对激活层N 设为 4

D. Experimental Results

1) Performance on CULane: 我们在表 I 中列出了我们的模型在 CULane 数据集上的基准结果,以及其他最先进的模型。我们提出的方法 CLRKDNet 在使用 ResNet18 主干网时的 F1 分数为 79.66%,比 CLRNet 在使用相同主干网时的 79.58% 提高了 0.08%。此外,推理速度从 275 FPS 提高到 450 FPS,提高了 60%,令人印象深刻。使用 DLA34 主干网,在去除帧冗余并重新训练原始 CLRNet 模型后,其 F1 分数达到了 80.71%。同时,CLRKDNet 的 F1 分数为 80.68%,略微下降了 0.03%。不过,与 CLRNet 模型相比,CLRKDNet 的推理速度提高了约 80 FPS,从 185 FPS 提高到 265 FPS,推理速度提高了 40%。

在表 II 中,我们将模型的 F1 分数与车道检测领域唯一采用蒸馏法的其他模型进行了比较。结果显示,我们的模型在检测精度和推理速度上都优于 SAD [5]模型。尽管使用了类似的轻量级骨干网,但我们的模型的推理速度几乎提高了一倍,F1 分数也提高了近 10%,从 70.80% 上升到 79.66%。

我们还在图 1 中展示了一张图表,比较了每个先进模型的 F1 分数和各自的推理速度 (FPS)。该图强调了我们的模型 CLRKDNet 在准确性和速度之间取得的平衡。它的表现优于同类其他模型,与性能类似的模型相比,它的推理速度提高了 100-200 FPS。唯一表现出较高效率的模型 UFLD 的 F1 分数明显较低,与 CLRKDNet 相比几乎相差 10%。图 4 展示了 CLRKDNet 和 CLRNet 之间的可视化比较。如图所示,我们的模型 CLRKDNet 在某些类别(如人群环境)中取得了更好的结果,尤其是在(b)列和(d)列中。

2) Performance on TuSimple: 表 III 展示了我们的模型在 TuSimple 数据集中与最先进方法的性能对比。我们的模型 CLRKDNet 与其教师模型 CLRNet 的性能接近,F1 分数仅下降了 0.11%,准确率下降了 0.07%。尽管性能指标的下降幅度很小,但我们的 CLRKDNet 的运行时间比其教师模型快 50%,这与在 CULane 数据集实验中观察到的显著改进相一致。

E. Ablation Study and Analysis

为了验证我们提出的方法中不同组件的有效性,我们在 CULane 数据集上进行了广泛的实验。我们首先评估了 CLRKDNet 在没有蒸馏的情况下的独立性能。在考虑去除帧冗余后,该基本模型在 ResNet18 和 DLA34 主干网中的 F1 分数分别为 79.05% 和 80.13%。

表 IV 着重说明了在 CLRKDNet 中集成各种蒸馏损失后,学生模型的性能逐步提高,从而引导学生模型向教师学习。对于 ResNet18 主干网,F1分数提高了 0.61%,在应用所有蒸馏损失时达到 79.66%。对于 DLA34 主干网,F1 分数提高了 0.55%,最终达到 80.68%。

这些骨干网之间的差异增长可归因于蒸馏过程中的深度差异。与基于 DLA 的蒸馏(即使用 DLA34 教师模型来蒸馏 DLA34 骨干学生模型)相比,更深的 ResNet101 模型为带有 ResNet18 骨干的 CLRKDNet 提供了更准确的蒸馏目标,从而带来了更大的性能提升。

V. CONCLUSIONS

本文介绍的 CLRKDNet 是一种精简的车道检测模型,它通过架构改进和知识提炼技术有效地平衡了准确性和效率。我们在 CULane 数据集上的实验表明,CLRKDNet 对 ResNet18 和 DLA34 主干网的 F1 分数分别保持在 79.66% 和 80.68% 的竞争水平,同时推理速度显著提高了 60%。这些结果突显了包括先验嵌入蒸馏、注意力图蒸馏和对数蒸馏在内的蒸馏损失的集成如何使 CLRKDNet 在设计简化的情况下复制其教师模型 CLRNet 的复杂检测能力。这种准确性与效率之间的平衡使 CLRKDNet 成为自动驾驶应用中车道实时检测的可行解决方案。

图 1:最先进方法在 CULane 基准上的 FPS 与 F1 分数对比。

 图 2:模型的上半部分是教师的配置,包括用于特征提取的深层骨干网、用于特征融合的三层 FPN 以及与每个 FPN 层相连的检测头。检测头执行迭代先验细化,虚线表示先验参数。下部是学生网络 CLRKDNet,通常有一个较轻的骨干层、一个用于特征增强的特征聚合模块和一个用于车道预测输出的检测头。在训练过程中,会应用三种类型的蒸馏:(a) 注意图转移,发生在骨干网络的多尺度特征提取过程中,将教师的注意图信息转移到学生模型中;(b) 先验知识转移,将教师的细化先验转移到学生的初始先验中;(c) 对数转移,比较两个模型的分类和回归输出,以完善学生的性能。

图 3:检测头示意图 

图 4:对比 CLRNet 教师模型和 CLRKDNet 学生模型与地面实况(Ground Truth)注释和输入图像的部分结果。学生超越教师模型的某些类别用虚线圆圈表示缺失的检测车道。 

 表

表 I: 与 CULane 上最先进方法的结果比较。FPS 使用单个英伟达 3090 GPU 进行测量

 表二:利用知识转移的不同车道检测方法的性能比较

 表 III:TuSimple 数据集的性能比较

 表 IV:各种蒸馏损失的消融研究。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值