【翻译】DET: A High-resolution DVS Dataset for Lane Extraction


Title:DET: A High-resolution DVS Dataset for Lane Extraction

作者:Wensheng Cheng, Hao Luo, Wen Yang, Lei Yu, Shoushun Chen, and Wei Li

来源:2019 CVPR

关键词:DVS


摘要:

车道提取是自动驾驶的一项基本而必要的工作。尽管在过去几年里,深度学习模型在车道提取方面取得了重大进展,但它们都是针对基于frame的摄像机生成的普通RGB图像,这限制了它们在自然环境中的性能。为了解决这一问题,我们引入了一种基于事件的动态视觉传感器(DVS)来完成车道提取任务,并建立了一个用于车道提取的高分辨率DVS数据集。我们收集原始事件数据并生成5424个基于事件的传感器图像,分辨率为1280x800,是目前所有DVS数据集中最高的。这些图像包括复杂的交通场景和各种车道类型。DET的所有图像都用多类分割格式标注。完整注释的DET图像包含17103个车道实例(lane instances),每一个都是手动逐像素标记的。我们在DET上评估最先进的车道提取模型,为基于事件的传感器图像的车道提取任务建立一个基准。实验结果表明,即使是最先进的车道提取方法,DET也极具挑战性。DET是公开的,包括原始事件数据,积累的图像和标签。

1. 简介

自动驾驶在学术界和工业界都受到了广泛的关注。目标是通过使用各种传感器和控制模块来全面了解汽车的环境。它包含许多具有挑战性的任务,包括车道提取、交通标志识别、行人检测等[35,19,31]。其中,车道提取是最基本也是最重要的一项,它可以帮助汽车精确地根据车道调整自己的位置。它成为后续应用的基础,包括车道偏离和轨迹规划功能。因此,进行准确的车道提取是自动驾驶的关键因素。

研究人员为此提出了许多方法。这些方法要么基于手工特征和启发式算法[3,6,11,13,29,34],要么基于端到端卷积神经网络(CNN)模型[7,14,12,9,20,17]。虽然取得了良好的效果,但在实践中还存在一些问题。

在现实生活中,汽车会遇到各种复杂、极端的场景。例如,当光线非常暗或变化很快时,这些方法就不能很好地工作。在这种情况下,由于输入[2]的问题,基于帧的相机无法清晰地捕捉场景,导致这些方法失败。实际上,这些困难来自于这些标准相机生成的RGB图像。因此,我们转向基于事件的摄像机。基于事件的相机是近年来发展起来的一种新型视觉传感器。图1显示了事件输出的可视化。它有两个关键特性低延迟和高动态范围。延迟是基于传感器采样率和数据处理时间。由于基于事件的相机使用事件来传输数据,事件表示光照变化,因此它的延迟为微秒(s),而标准相机[24]的延迟为50-200毫秒(ms)。有了这样低的延迟,基于事件的相机可以捕获环境并比标准相机更快地生成图像。这个属性确保它不会受到运动模糊的影响,这对于基于框架的相机来说是一个麻烦的问题。此外,低延迟带来的响应时间更短,这也使得自动驾驶汽车比其他汽车更加灵活。

在动态范围方面,基于事件的传感器具有130 dB vs . 60 dB的标准动态范围,比[24]大7个数量级。这个角色使它能够处理大光照变化的场景,这是自动驾驶的一个关键点。假设一辆汽车通过隧道,它进入和离开隧道的瞬间会导致这样的照明变化,相应的图像会变得非常黑暗或明亮。这使得几乎不可能从这些图像中识别车道。但是对于基于事件的相机,由于高动态范围,车道仍然是清晰的。如图2所示。

此外,基于事件的传感器会根据事件流数据生成半密度图像。因此,传感器产生的图像只包含亮度变化的像素,这些像素通常是移动的物体。这些物体正是我们在自动驾驶中所关心的,包括汽车、行人、交通标志和车道。背景的东西,或者天空、路面等冗余信息在自然界中被去除,有利于后续的处理。

采用基于事件的传感器进行车道提取的一个潜在问题图像分辨率。普通的基于事件的相机生成的图像分辨率低至240x180,这对于需要丰富细节的任务来说显然是不够的。

基于上述原因,我们构建了一个用于车道提取(DET)的高分辨率DVS数据集。基于事件的传感器图像有5424张,1280x800像素,并有相应的标签。注意raw event data也被提供于那些直接使用事件数据的算法[28, 16].这些图像被分为2,716幅图像的训练集、873幅图像的验证集和1,835幅图像的测试集。我们提供了两种基于事件的传感器图像:由传感器直接生成的原始图像和过滤后的图像。由于传感器对光照变化敏感,在原始图像中存在大量的噪声像素。我们还提供两种标签,不区分不同的车道和可区分车道的per-pixel label。究其原因,最先进的车道提取模型要么基于语义分割,要么基于实例分割,而实例分割需要不同的标签。然后我们在DET上测试最先进的模型并报告结果。据我们所知,这是第一个使用基于事件的传感器图像进行车道提取的数据集。它也是第一个具有如此高分辨率的DVS数据集。

总之,我们的贡献如下:

  • 我们提供了一个用于车道提取的DVS数据集,包括原始事件数据和带有标签的累积图像。据我们所知,DET是该任务的第一个事件相机数据集,也是第一个拥有1280×800像素高分辨率图像的事件相机数据集。

  • 我们在DET上对最先进的车道提取算法进行了全面的基准测试,为以后的研究奠定了基础。

2. 相关工作

2.1 Event Camera Dataset

Synthesized Dataset

Classification Dataset

Recognition Dataset

Driving Dataset

上面列出的DVS数据集适用于一般的计算机视觉或机器人控制任务。没有一个是针对车道提取任务的。此外,这些数据集中基于事件的图像只有很低的空间分辨率,比如128x128或240x180。低分辨率给算法在这些数据集上的性能带来了困难。

2.2. Lane Dataset

Caltech Lanes Dataset

tuSimple Dataset

CULane Dataset

这些lane数据集都是基于基于帧的相机生成的RGB图像。光照变化和运动模糊会严重影响模型基于这些图像的性能,在实际交通情况下一定要避免。

2.3. Event Camera in Autonomous Driving

由于事件相机相对于基于框架的标准相机来说还是比较新的,因此在自动驾驶中使用事件相机的项目很少。本节将介绍两个典型的应用程序。

Steering Prediction转向预测。[23]试图利用事件相机来预测车辆的转向角。他们采用了复杂的卷积架构来输出事件传感器,并广泛地评估了他们的方法在公共数据集上的性能。他们进一步表明,尽管该网络是在传统相机采集的帧上训练的,但在分类任务上可以利用来自预先训练好的卷积网络进行迁移学习

Car Detection汽车检测。[5]试图通过事件相机和来自传统相机生成的灰色图像的伪标签来检测车辆。他们通过中间的伪标签 pseudo-labels将判别性知识从最先进的基于框架的CNN转移到基于事件的modality,这些伪标记被用作监督学习的目标。该模型甚至可以补充基于框架的CNN检测器,这表明它已经学会了广义的视觉表征。

虽然这些工作探索了事件相机在自动驾驶中的应用,但研究者还没有注意到车道提取这一基本任务。这是一个极具潜力的事件相机领域,与传统的基于框架的相机相比,具有明显的优势。

3. Construction of DET

3.1. Data Collection

为了收集数据,我们将高分辨率1280x800的event-camera CeleX V安装在不同地点的车辆上,并记录在不同时间在武汉市行驶的赛事流。武汉作为中国的大都市,有着复杂多样的交通场景,对车道的提取提出了挑战。

我们记录超过5小时的事件流,采样率为MHz,等于微妙的采样间隔。我们沿着时间维度压缩原始事件流,delta t = 30 ms. delta t表示单个图像对应的事件流时间跨度。如图1所示。然后我们从原始事件流中获得超过15万张图像。我们仔细选择了5424张包含各种场景的图片来做标签。

对于这些图像,我们发现由于事件相机的成像特性,存在一些噪声像素。我们简单地使用中值过滤器来删除这些像素,并得到干净的图像。我们公开提供原始图像和过滤后的图像,如图3所示。我们建议研究人员采用原始图像,因为它们更接近真实世界,并保留更多的细节。不管怎样,经过过滤的图像会丢失一些细节。

3.2. Data Annotation

Task Definition任务定义。车道提取任务有两种定义方法。一是在不区分车道的情况下提取车道,二是区分车道。我们认为后者更实用,因为对于自动驾驶系统来说,使用每个车道的位置来决定汽车的位置是非常重要的。因此,我们将车道提取定义为在区分车道的同时,从交通场景中提取车道。

对于符合该定义的已有的基于cnn的车道提取算法,我们将其分为两类:语义分割方法和实例分割方法。语义分割方法将车道提取问题看作一个多类分割任务。将每个像素划分为(n + 1)个类别,其中n为lane类型,1为背景。具有相同标签的车道在某种意义上应该是相似的。实例分割方法与此方法相同,只是它不能保证具有相同标签的车道是相似的。它只将车道分割成单独的车道,而不考虑不同图像中车道的相似性。因此,实例分割方法生成的具有相同标签的车道在不同的图像中可能会有很大的差异。

Annotation Details注释细节。该任务中的语义分割方法和实例分割方法都需要多类标记。在我们的数据集中,一张图片最多有4条lanes。因此,它是一个五类分类任务。我们给每个像素五个标签中的一个,即{0;1;2;3;4}。0代表背景,其它代表lane。现在的问题是,我们如何决定每个车道的标签。

。。。

3.3. Data Split

为了保证训练数据与测试数据分布近似匹配,我们随机抽取原始图像的1/2作为训练集,1/6作为验证集,1/3作为测试集。我们将提供所有的原始图像,包括原始的DVS图像和经过过滤的具有相应标签的图像,公开包含多类标签和二进制标签。

4. Properties of DET

4.1. High-resolution Image

4.2. Various Lane Types

4.3. Various Lane Number

4.4. Various Traffic Scenes

4.5. Various Camera Views

5. Evaluation

5.1. Evaluation Settings

5.2. Lane Extraction Baselines

我们测试了典型的车道提取方法,包括基于语义分割的方法,如FCN [22], DeepLabv3 [4], RefineNet [21], SCNN[26]和基于实例分割的LaneNet[25]。FCN、RefineNet和DeepLabv3是用于一般计算机视觉任务的典型语义分割方法。FCN是第一个将语义分割作为像素级分类任务的研究。该方法首先建立全卷积神经网络,利用跳跃结构将浅层语义信息与深层语义信息结合起来。DeepLabv3将空间金字塔池和全局池结合起来,引入了图像级的全局上下文。RefineNet明确利用下采样过程中的信息,利用远程剩余连接实现高分辨率预测。

SCNN和LaneNet是车道提取任务的专用模型。SCNN将传统的深层bylayer卷积泛化为feature map中的逐层卷积,实现了层中像素之间跨行、跨列的消息传递。这使得它特别适合于长连续形状结构识别,如车道提取。SCNN在简单的[30]数据集上实现了最先进的性能。LaneNet将车道提取问题转化为实例分割问题,并采用基于图像的学习视角变换代替固定的鸟瞰图变换。它通过集群生成每个lane实例。因此,它可以处理车道类别变化的场景,尽管它不能将相似的车道分配给相同的标签。表2为车道提取基线结果。图6给出了这些方法的可视化比较。图7为这些方法的PR曲线。

5.3. Experimental Analysis

6. Conclusion

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值