LaCNet翻译

摘要

准确、稳健地检测城市区域的车道和路缘对于许多实际智能车辆应用至关重要。现有的基于视觉的研究将车道检测和路缘检测分开处理,这是因为路缘检测问题的本质依赖于三维特征,在现实世界中驾驶时效率不高。本文利用深度卷积神经网络强大的特征学习能力,提出了一种将这两个任务结合在一起的统一网络。由此产生的统一网络通过路缘检测提供有价值的道路边界信息,即使在车辆导航期间车道标记不可见。该方法的另一个重要功能是能够准确区分具有微小间隙或复杂空间关系的各种车道和路缘实例,这被认为是实际驾驶情况中的最大挑战。为了实现这一点,该网络专门设计用于通过像素分组将车道和路缘实例引导到可学习内核。这个可学习的内核能够处理任意数量的任意形状的车道和路缘,无论车辆以何种角度行驶。最后,在处理速度为32 FPS的两个数据集(BDD100K和自收集数据集)上对该方法进行了评估。结果非常令人鼓舞,在自行收集的数据上,车道和路缘检测的F1测量值均超过98%

引言

在过去的几十年里,在城市地区实时定位车道一直是一项活跃的研究。它是各种智能车辆应用的重要组件,如车道级别定位[1]、[2]和导航[3]、[4]、车道偏离警告系统(LDWS)以及高级驾驶员辅助系统(ADAS)。路缘检测也是一个必要的组成部分,因为它可以在找不到车道标线时提供道路边界信息。它可以集成到车辆定位[5]、导航[6]和横向控制中。然而,现有的基于视觉的研究将这两个部分视为两个独立的任务,因为它们之间的特征提取模块完全不同,并且路缘的检测通常需要额外的3D信息[7]。
随着深度学习方法的快速发展,使用手工特征的传统车道检测方法[8]-[11]由于缺乏考虑真实驾驶情况(例如:。
车道标线、褪色车道、严重弯曲车道、之字形车道、入口/出口匝道的出现、结束、喷溅和合并,以及其他道路的干扰)。这些端到端的深度学习车道检测方法[12]–[17]通常采用语义分割框架预测每个像素的标签是否为lane。他们的研究范式主要集中在通过多任务学习和消息传递获取更丰富的上下文信息,以提高车道检测的准确性[17]。例如,在[18]中引入了几何约束,以提高整体车道检测性能。该框架将车道边界分割和道路区域分割等多任务相结合。[14] 在高级层的输出之间执行顺序消息传递,以更好地利用车道的结构信息。生成性对抗网络(GAN)被集成到[15]中的框架中,类似于标签的更多信息。只有[16]的工作遵循实例分割框架,车道像素被划分为不同的车道实例。然而,随机数和任意形状的车道检测是实际城市驾驶场景中最具挑战性的方面之一,很少被考虑。这种情况也存在于路缘检测中。
路缘检测比车道检测更具挑战性,因为路缘特征的纹理、几何体或渐变信息不是恒定不变的。使用摄像头进行路缘检测的典型解决方案是将多线索(例如图像强度和纹理)信息与三维高度-高程约束结合起来[19]–[21]。但是,随着与车辆距离的增加,高度升高变得模糊。
因此,即使不考虑光照变化和遮挡,也很难检测到低高度和远距离路缘,并且对噪声敏感。此外,城市街道上的路缘通常具有复杂的几何形状和方向,与环形交叉口、交叉口、停车位、交通岛等处的车辆有关。文献中的现有方法无法处理这些任意数量和几何形状的路缘。
此外,只有一项基于CNN的路缘检测深度学习研究[22],选择了SegNet[23],DeepLabv2[24]和DeepLabv3+[25]用于路缘检测,以与[22]中提出的方法进行比较。由于88张KITTI训练图像有限,基于SegNet、DeepLabv2和DeepLabv3+的路缘检测性能不令人满意。因此,如何设计一个高效、统一的端到端随机数和任意形状的车道与路缘检测深度神经网络仍然是有待解决的问题。
在本文中,我们试图提出一个任意形状和任意数量的车道和路缘检测器的解决方案,它应该在速度和性能之间实现良好的平衡。挑战源于观察到路缘和车道有时彼此之间只有很小的间隙,并且它们之间的几何关系非常复杂。对语义分割预测结果进行简单的后处理很难区分它们。我们从广泛使用的深度度量学习[16]、[26]、[27]中得到启发,并将车道和路缘像素映射到一个嵌入空间,其中同一实例中的像素具有相似的嵌入向量,并且属于不同车道或路缘的像素被强制为不同的。因此,根据管道设计的网络LaCNet为:i)通过分段网络预测车道和路缘区域;ii)根据嵌入空间上的预测核重建车道和路缘实例。本文在FCN-8s[28]的基础上建立LaCNet来预测车道和路缘区域。为了准确地重建和区分每个车道和路缘实例,我们提出在嵌入空间上对车道和路缘像素进行分组,通过相似向量校正核。
为了证明建议的LaCNet的有效性,我们在BDD100K[29]上进行了广泛的实验,BDD100K[29]是唯一一个包含路缘注释的数据集,以及新加坡自收集的真实驾驶数据集,其标签由Berkeley DeepDrive带来的Scalabel[30]开源注释工具生成。
总之,我们的贡献有三个方面:(1)我们提出了一个统一的端到端任意形状车道和路缘检测深度神经网络LaCNet,该网络适用于复杂的实际城市驾驶场景。(2) 提出了基于相似度向量的像素分组机制,该机制可以通过网络学习。这种机制可以有选择地对内核周围的像素进行分组,从而有助于区分具有复杂几何关系的长细车道和路缘。(3) 该方法在两个数据集上取得了令人满意的性能,实时处理速度为32fps。
据我们所知,这是第一个能够同时实时检测随机数和任意形状车道和路缘的网络。

方法

A结构总览
我们解决了全卷积网络架构下的多车道和多路缘检测问题。
LaCNet 的网络架构由典型的编码器解码器网络 [28] 组成,采用 FCN-8s 来预测车道和路缘区域,然后是类分割和像素组化两个分支,如图 2 所示。 类分割的输出 是一个 3 通道图像,表示车道、路缘和背景的概率分数。 像素组的输出是一个 N 通道的图像。 N是相似度向量的维数,我们在所有的实验中都将其设置为4。 像素分组是通过将FCN-8s上采样过程的最后一层输出通过连​​续的1×1卷积层和具有4个输出通道的ReLU层获得的。
B类别分割
训练类分割以生成三类分割图,预测哪些像素是车道和路缘,其余像素属于背景。 类分割的损失函数 Lc 是定义为 Equ 的稀疏 softmax 交叉熵损失函数。 1:
公式(1)
其中 n 是班级编号。 yi 是第 i 个类标签。 logitsi 是类分割分支的最后一层输出。
S(logitsi)是通过使用softmax层产生分配给i类的概率。
由于车道、路缘和背景像素数高度不平衡,我们使用定义为 Equ 的自定义类权重方案。 3:
公式(3、4)
其中 i 是第 i 个类,n 是类号,c 是超参数,我们将其设置为 1.02。 因此,权重 Wi 被限制在 [1, 50] 的区间内。 Pi 是第 i 类的发生概率。 Ci 是第 i 个类的像素数。
C像素分组
为了重建车道和路缘实例,车道和路缘预测像素应该合并到可以在训练阶段自动学习的内核中。 像素分组被提议通过相似性向量将车道和路缘像素合并到正确的内核。 内核可以被视为实例中心。 因此,为了将车道和路缘像素引导到相应的核,车道和路缘像素的相似向量与同一实例的核之间的距离应最小化。 在训练阶段,采用分组损失 Lg 来强制最小化实例内距离,如公式 3 所示。 5.
公式(5、6)
其中 C 是车道和路缘(集群)的数量,Nc 是实例 c 中的像素数,D(p, Kc) 定义了像素 p 和实例 c 的核 Kc 之间的相似向量距离。 S§ 是像素 p 的相似度向量。 S(Kc)是kernel Kc的相似度向量,是pixel embedding的均值向量,可以通过计算P p∈Nc S§ |Nc| . max(·)意味着只有当相似向量距离rg更远时才会激活分组力。
为了区分不同的车道和路缘实例,应该最大化不同内核的相似向量距离。 我们使用判别式损失 Ldis,如方程式所示。
7 在训练期间描述此规则。
公式(7、8)
其中 D(Kca , Kcb ) 定义了核 Kca 和核 Kcb 之间的相似向量距离。 max(·)表示核之间的相似向量距离不小于rd。
使用分组损失函数 Lg 和判别性损失 Ldis 训练网络,以便将每个车道和路缘实例分组在一起(相似向量距离小于 rg),并且不同车道和路缘彼此之间的距离比 rd 更远。
在测试阶段,将类分割输出作为掩码,首先获得预测的相似度向量,而不是直接进行相似度向量聚类。 这可以确保区分车道和路缘。 如果我们在上面的训练中设置 rd > 6rg,那么在推理过程中,我们可以随机选择一个未标记的预测相似度向量,并在其值周围应用阈值,半径为 2rg,将属于同一实例的所有车道和路缘像素分组。 然后我们更新平均像素相似度向量,并通过应用meanshift算法[31]再次使用新的均值来阈值,直到均值收敛。 将选择另一个没有分配标签的像素重复整个过程,直到所有像素都被标记。
D损失函数
整体损失函数 L 可以表示为 Equ。 9:
公式(9)
其中 α、β、γ 用于在 Lc、Lg、Ldis 之间分配适当的重要性,并且我们在所有实验中将它们设置为同等权重 α = β = γ = 0.5。

实验

A生成的标签
为了为自行收集的数据集构建车道和路缘地面真相标签,我们使用开源的Scalabel注释工具[30]。地面真实车道和路缘点只需要几个点就可以在每个车道或每个路缘上形成一条连接线,因此可以提高标记效率。由于车道和路缘是长而细的,带注释的像素远小于背景像素。因此,车道和路缘标签的宽度随之增加,每个车道和路缘线的厚度为5。训练样本由三部分组成:原始图像、类分割标签和实例分割标签。类分段使用255表示路缘区域,127表示车道区域,0表示其余区域。该实例使用不同的像素值表示不同的车道或路缘区域,其余区域使用0。
B数据集
1)BDD100K
Berkeley DeepDrive (BDD) 数据集 [29] 是唯一为训练 LaCNet 提供车道和路缘注释的数据集,该数据集于 2018 年发布。该数据集由 70K 训练图像、10K 验证图像和 20K 测试图像组成,在不同的天气条件下 并在不同的白天在真实的交通城市街道上。 考虑到大量的图像和复杂的道路场景。 注释是json格式,我们可以直接提取带有车道和路缘属性的图像作为训练和测试数据集。 与自收集数据集类似,BDD100K 的实例地面实况使用不同的灰度值来表示不同的车道和路缘区域,其余为 0,并且厚度增加到 5。
2)自己搜集的数据
为了进一步测试 LaCNet 在真实驾驶世界中的性能,我们还对自收集的序列进行了车道和路缘评估,车辆配备了摄像头,如图 4 所示。收集的 ROS 包序列 01-07 包含各种道路情况 如表 I 中所述。如何在训练大约 1000 个选定帧后有效地标记这些大量连续帧并同时在整个 ROS 包上保持高检测精度是非常棘手的。 由于分化复杂的车道或路缘几何形状很困难,我们专门增加了具有挑战性的道路场景的图像数量。 最后,我们提取了 964 张用于训练的图像和 164 张用于验证的图像,并将整个 ROS 包作为测试数据。
C评估指标
为了促进对 LaCNet 性能的评估,我们遵循文献并使用以下评估指标对每一个数据集
我们遵循 TuSimple [32] 的官方指标(准确度),这是 2018 年之前最大的车道检测数据集。
1)BDD100K
精度定义为与地面实况相比的平均正确车道和路边像素数。 当像素在地面实况标签的阈值(30 个像素)内时,车道和路边像素是正确的。
公式(10)
2)自己搜集的数据
由于无法对自行采集的ROS bag图像数据中的每一帧检测结果进行评估,因此在运行ROS bag时,每5帧序列seq01至seq07自动保存车道和路缘检测结果。
在真实车道或路缘的 30 像素宽度内,拟合线与超过 90% 对齐的预测被视为真阳性 (TP)。 F1 度量用作评估指标,其定义为
公式(11)
D实施细节
我们使用在 ImageNet [34] 上预训练的 VGG16 [33] 作为我们的基本编码器阶段。 BDD100K的图像分辨率和自收集数据调整为512×256。在像素分组过程中,实验中rg = 0.5,rd = 3。
LaCNet 使用超参数批量大小 = 8 进行训练,初始化学习率为 0.0005,每 100000 个 epoch 乘以 0.1。 训练集的总数设置为 200000。通过随机梯度下降 (SGD) 最小化损失。 所采用的两个数据集训练策略都是从stratch 训练的。
E结果
我们已经在两个数据集上测试了我们的车道和路缘检测算法。 该平台在普通 PC 上运行,配备 Nvidia GeForec GTX 1080、Intel® Core i7-4770 CPU @ 3.40GHz × 8 和 8 GB RAM。 处理速度很快,可以达到每秒 32 帧 (fps) 左右,包括图像调整大小的预处理时间。
1)bdd100k
BDD 100K 的准确率为 35.56%。 由于这是第一个同时考虑车道和路缘实例检测的工作,因此目前还没有类似的工作可以与我们所知的相比较。
由于 BDD 100K 图像在相邻帧之间不连续,因此我们仅在图 3 中展示了车道和路缘地面实况及其 LaCNet 输出的定性可视化。 正如我们所见,网络可以区分相邻的路缘和车道,并且还可以 处理相对于车辆的任意方向。 令我们惊讶的是,网络甚至可以区分附近的线,实际上是一条车道,在 BDD100K 中用两条线(一条车道的左侧和右侧)标记。
2)自己搜集的数据
我们总共对 1677 帧进行了评估。 在自采集数据集上车道和路缘检测的评价结果​​如表二和表三所示。 车道检测的平均 F1 度量可以达到 98.43%,路边检测的平均 F1 度量可以达到 98.65%,当网络需要部署在新的真实驾驶数据上时,这确实令人鼓舞。
图 5 给出了南洋理工大学 (NTU) 校园的一些结果可视化,这是具有挑战性的场景。 从这些图中,我们可以看到该网络在任意形状的车道和路缘检测上表现良好。 结果的视频可在 https://youtu.be/vZonvviCd60 获得。

结论

我们在本文中提出了一种用于端到端任意形状车道和路缘检测的实时实例分割深度神经网络。 这是第一个可以同时检测车道和路边的工作。 所提出的方法没有车道和路缘石数量固定的限制,可以应对几何形状、方向甚至与车辆距离较远的车道和路缘石。 当网络需要部署在新的真实驾驶数据上时,处理速度也很快,准确度也非常令人鼓舞。 我们计划在未来研究如何提高神经网络的性能,尤其是在夜间。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值