Object Classification Using CNN-Based Fusion of Vision and LIDAR in Autonomous Vehicle Environment

摘要

本文提出了一种用于环境中自动驾驶车辆的视觉和光检测与测距(LIDAR)融合的对象分类方法。该方法基于卷积神经网络(CNN)和图像上采样理论。通过创建LIDAR数据上采样的点云并将其转换为像素级深度信息,深度信息将与Red Green Blue数据连接并馈入深度CNN。所提出的方法可以使用集成的视觉和LIDAR数据获得用于自动车辆环境中目标分类的信息特征表示。还采用此方法来保证对象分类的准确性和最小的损失。提出了实验结果,并显示了对象分类策略的有效性和效率。

key word

autonomous vechicle,卷积神经网络(CNN),对象分类,传感器融合。

一,引言

在过去的几十年中,自动驾驶汽车作为汽车工业中最引人注目的技术趋势之一,由于其在增强车辆安全性和性能,交通效率[1]和节能[2]。汽车工业的研究主题已经受到学术界和工业界的广泛关注。一些著名的计划包括Dickmanns和VaMP [3],ARGO项目,EUREKA PROMETHEUS项目[4],DARPA Grand Chal lenge [5],Google的自动驾驶汽车[6],以及由美国国家半导体组织的年度“英特尔自主汽车未来挑战赛”2009年以来获得中国自然科学基金[7]。来自世界各地的数百支车队参加比赛,展示自动驾驶汽车上的技术成就,并最大限度地提高汽车的燃油经济性并满足车辆安全性的要求。特别是,胡等。提出了一种基于模型预测燃料最优控制器的最优前瞻控制方法,该模型使用来自V2V / V2I通信的领先车辆的状态轨迹[2]。无人驾驶汽车在计算时应即时,准确,稳定且高效,以在众多城市到郊区的情况下以及从高密度交通流到高速公路中产生安全和可接受的行驶轨迹。在现实世界的交通中,道路和天气条件围绕着各种不确定性和复杂性,而物体和障碍物,轮胎和行驶地形之间存在动态相互作用。自动驾驶汽车必须快速,准确地检测,识别,分类和跟踪具有复杂背景并带来技术挑战的动态物体。

目前,自动驾驶汽车的目标分类研究可以分为两种研究方法。第一种研究类型基于红绿蓝(RGB-D)应用。Imran首先将RGB图像与用Kinect收集的深度图像进行组合,并使用四通道数据流训练卷积网络[8],[9]。Silberman和Fer gus显示的室内语义分割平均准确度为64.5%,视频测试产生了令人满意的可靠性和准确度[10]。Gupta通过结合两个卷积神经网络(CNN)和支持向量机模型,基于RGB-D的目标检测和分割,提出了一种异构神经网络[11]。Eitel建立了一个多模型深度学习架构来处理RGB-D图像以进行目标识别[12]。Wang提出了一种基于深度学习的多模型[13]。Kosaka提出了一种从车载单眼相机拍摄的夜间驾驶场景中检测车辆的方法[14]。Cheon提出了一种基于梯度方向直方图的对称矢量的基于视觉的车辆检测系统;该系统包括假设生成步骤和假设验证步骤[15]。Chavez-Garcia和Aycard提出了一种感知环境模型,将感兴趣的四个对象分类:行人,自行车,汽车和卡车[16]。

第二种研究类型基于视觉和光检测与测距(LIDAR)数据应用的融合。Navarro-Serment使用了几台SICK激光线扫描仪来构建一个LIDAR阵列,用于在室内环境中对行人进行检测和跟踪[17]。Dolson设计了一种加速的高斯插值算法,用于在计算机视觉应用中使用高分辨率深度图像实时上采样相机数据和激光扫描[18]。Premebida分析了三维(3-D)激光测距传感器(即Veloyne HDL-64E LIDAR)的稀疏性,以比较RGB数据和Kinect [19]。Schlosser探索了用于行人检测的CNN的LIDAR和RGB图像融合的几个方面[20]。Zarzoso提出了一种卷积学习系统,用于对以3D表示为激光反射点云的分割对象进行分类[21]。Wu提出了一种基于超级体素的方法,用于自动定位和提取移动LIDAR系统获取的点云中的路灯杆[22]。

可以轻松修改光学相机的传统计算机视觉,以满足检测车辆,行人或交通信号的车载要求。获得的图像包含丰富的语义信息,但是图形计算会消耗计算机资源。另外,光学相机对照明和照明角度敏感。RGB数据缺乏深度信息是在道路上检测到重叠物体时最严重的问题[20]。声雷达和LIDAR可以在短时隙中提供准确的距离信息,但是没有可用的有源LIDARS可以获取高密度环境信息。Veloyne HDL-64E是最常用的LIDAR传感器,只能产生稀疏点云[19]。尽管这些基于RGB-D的方法表现良好,但是它们中使用的硬件是为近距离场景(例如室内环境)设计的。诸如Kinect之类的设备无法在户外进行远距离物体检测[18]。然而,深度信​​息不足导致了基于传统RGB图像的检测,识别,跟踪和分割技术的准确性,效率和及时性方面的瓶颈[11],[23],[24]。为了解决上述研究问题的不足,本文提出了相机RGB数据与LIDAR点云的传感器融合。通过将纯RGB数据与来自远距离敏感LIDAR点云的深度信息进行组合,可以获得适用于室外环境中远距离物体检测的RGB-D数据。基于多传感器融合的目标识别分类的两项关键技术包括数据融合和分类方法。基于上采样的数据融合方法简单高效,适合实际应用。深度CNN(DCNN)使用纯监督学习可以在具有挑战性的图像数据集上取得显着结果。因此,如果我们将DCNN和上采样融合方法结合在一起进行对象分类,则可以继承这两种方法的优点。另一方面,可以避免每种方法的不足。本文的科学贡献简述如下。
1)提出了一种简单而强大的DCNN和上采样融合方法,以有效处理自动驾驶汽车环境中的目标分类问题。

2)利用集成的视觉和激光雷达数据,该方法可以获得用于自动驾驶环境中的目标分类的信息特征表示。通过使LIDAR数据的点云上采样并转换为像素级深度信息,深度信息将与RGB数据连接并馈入DCNN。

3)采用DCNN和上采样融合方法,既保证了对象分类的准确性,又保证了低损耗,提高了处理效率。

本文的其余部分安排如下。第二节描述了mengshi自动驾驶汽车的系统架构。第三节介绍了对象分类方法,包括稀疏数据上采样范围,数据集描述和对象分类方法。第四节介绍了实验结果和结果分析。第五节总结全文。

二。系统架构

 自动驾驶汽车“孟氏”是由清华大学在李教授和李教授的领导下共同设计开发的。图1显示了蒙氏的外观。

图2说明了孟氏的传感器部署,它由五个雷达传感器,三个视觉传感器和一个集成的位置/姿态传感器组成。雷达传感器包括两个单激光雷达(SICK LMS 291-S05),一个四线激光雷达(IBEO LUX 4L),一个64线激光传感器(Velodyne HDL 64E)和一个毫米波雷达(Delphi ESR) 。视觉传感器包括三个摄像头(AVT 1394 Pike F-100c),它们均匀地安装在前视镜的背面。
集成的位置/高度传感器包括源自NovAtel的全球定位系统(GPS)和惯性导航系统。表I提供了每个传感器的详细说明。

三,对象分类方法

图3总结了本文使用的网络连接方式。我们首先使用校准矩阵通过将KITTI数据库中的Velodyne激光点云数据旋转到RGB图像平面来捕获稀疏深度图[25]。然后,我们将稀疏深度图上采样为高分辨率深度图像。考虑到KITTI的地面实况,我们从每个图像中提取四个对象(行人,骑自行车的人,汽车和卡车)[19]。我们根据这些对象构建了三个图像数据集。一个数据库用于四种对象的纯RGB图像,一个数据库用于具有与来自LIDAR点云的实际距离信息相对应的灰度的灰度图像,而第三种数据库是由以下组成的RGB-LIDAR图像数据集:前两个信息。每个数据集包括6843个标记对象。最后,我们提出一种基于CNN的结构,以训练用于检测道路上四种物体的分类器。这些分类结果被提供给驾驶认知模块进行车辆决策和控制[26]。

这种方法已成功应用于我们的蒙市自动驾驶汽车。孟氏是由清华大学和其他研究所独立开发的自动驾驶汽车。Velodyne HDL-64E激光雷达位于车辆顶部,并收集浊点数据。AVT F200C摄像机位于挡风玻璃下方,可捕获彩色图像。GPS实时运动(RTK)占据主干并记录位置数据。这些传感器都用于多峰融合实验。该车实现了完全自动驾驶,并在“未来挑战赛2016”中获得了第二名。


A.稀疏数据上采样范围

在这项研究中,采用了对LIDAR范围输入进行上采样的新方法,以将深度与RGB图像对齐。在这种方法中,我们仅从原始范围数据中计算密集深度图,而不使用RGB图像中的信息。

我们在我们的方法中使用双边过滤形式来制定上采样,以从嘈杂和稀疏深度的图像I [19]中生成密集的图D(输出图像)。假设输入I以像素为单位进行协调并且具有w.r.t.w.r.t.在高分辨率相机中,由于校准参数和数据稀疏性的不确定性,I中的像素位置不完整。根据深度图上像素p的强度值(表示为下标()_p及其N邻域掩码),该像素值位于输出图D_p的相同位置,如以下等式所示:

D_{p}=\frac{1}{W_{p}} \sum_{q \in N} G_{\sigma_{r}}\left(\left|I_{q}\right|\right) I_{q} G_{\sigma_{s}}(\|p-q\|)

其中G_{\sigma_r}惩罚点q的距离所引起的影响

G_{\sigma_s}与位置p和位置q之间的距离成反比,

W_p为归一化因子,确保权重之和等于1。
在(1)中,我们将G_{\sigma_s}设置为与像素位置p和位置q之间的欧几里得距离(p-q)成反比。

B.数据集

考虑到Velo dyne HDL-64E S2传感器返回值固有的不确定性,我们可以假设该仪器平均产生0.002拉德的光束发散度和2.5 cm的均方根误差范围。此外,随着距LIDAR距离的增加,这些不确定性将迅速放大,这表明物体距图像I的距离越大,距离位置的误差就越大。在固有特性的影响下,G_{\sigma_r}(\left | I_q \right |)的值与范围值成比例,并且线性减小,从而根据返回的距离LIDAR来补偿收益。我们的滤波器实现为通过I_q\in n的最大范围值对权重G_{\sigma_r}进行归一化。这种上采样方法可能类似于空间滤波器,其中我与固定大小(例如5×5)的内核(掩码)“卷积”。尽管内核大小是固定的,但像素数q\in n取决于3-D云稀疏度,并且不是恒定的。图4(a)-(d)显示了RGB图像的示例,来自KITTI数据库的稀疏LIDAR点云(鸟瞰图),通过将点云数据投影到图像平面而获得的稀疏深度图以及高 在将我们的平滑滤波器分别应用于(1)之后获得的分辨率深度图像。

来自KITTI的RGB图像和3-D点云被用作对象基准[27],以对对象进行分类,例如汽车,三脚架,卡车和骑自行车的人。RGB彩色图像由左侧的彩色摄像机捕获(10 Hz,分辨率:1392×512像素像素,开口:90o×35o),而3-D点云则由Velodyne HDL-64E产生单元并以图像形式投影回去。作为提供深度信息的少数可用传感器之一,Velodyne系统可以从移动平台生成准确的3D数据。与结构照明系统(例如Microsoft Kinect [25],[28])相比,该系统还可以应用于室外场景和较长的感应距离。

我们根据来自KITTI数据集的RGB图像和上采样深度图像中裁剪对象。我们的基准测试包括6843个RGB图像和向上采样的深度数据对(4种类型,1750辆汽车,1750行人,1643辆卡车,1700个自行车手,最大像素:600×365,最小像素:30×30;示例如图5所示), 其中包含5475个训练图像和1368个带有相应标签的测试图像。

C.对象分类

对于对象分类,我们将来自KITTI的图像分类为小汽车,自行车,行人和卡车。然后,我们采用AlexNet模型作为CNN架构[29]。AlexNet包含五个卷积层(称为conv1-conv5)和三个完全连接的层(称为fc6,fc7和fc8),如图6所示。每个卷积层包含多个内核,每个内核代表一个3-D滤波器连接到上一层的输出。对于完全连接的层,每个层包含多个神经元,每个神经元包含一个正值,并连接到上一层中的所有神经元。我们将第III-B节捕获的图像的大小调整为128×128分辨率,以进行有效输入,然后将其传递给AlexNet。

AlexNet训练的是1000种物体。我们将fc8图层的大小从1000更改为4,以将我们的数据集与四个类别进行匹配。固定从层conv1到层fc6的参数,以防止过度拟合。

这种基于RGB-LIDAR的方法显着提高了KITTI数据集中四个类别的分类的平均精度(请参见第IV节)。我们将相同的数据集用于训练和测试模型。

四.实验与分析

A.实验设置

我们使用RGB-LIDAR数据集来训练CNN。该数据集包含四类对象,即行人,骑自行车的人,汽车和卡车。每个对象包括四个通道,传统的RGB通道和一个附加的深度通道。为了方便起见,我们将此数据集称为RGB-LIDAR。类标签对应于KITTI基准。

硬件CNN培训平台是具有Core(TM)i7-5930K(3.5 GHz)和两个GPU的NVIDIA GeForce GTX Titan X,硬件CNN测试平台是具有ARM A57 CUP和一个GPU(1 TFLOP)的NVIDIA Jet son TX1。/ s 256核Maxwell)。该软件开发平台包括用于快速功能嵌入和NVIDIA CUDA8.0的卷积架构,操作系统为Ubuntu16.04。

B.实验结果与分析

1)处理时间:鉴于处理时间是自动驾驶汽车的关键指标,因此我们专注于不同物体的道路检测。丢失任何关键帧都可能影响后续的控制决策,而不管对象是脚踏车还是汽车。当CNN无法实时处理信息时,延迟将累积并影响整个车载网络。

我们首先以不同的迭代次数(例如100、200、500、1000、2000、3000、4000和5000)训练整个网络,然后从测试集中随机选择1400张图像进行测试。重复该过程20次,并计算出平均结果。

图7显示了使用RGB-LIDAR和RGB方法在不同迭代下训练数据集的平均每秒帧数(FPS)。训练网络的平均FPS从100迭代不断减少到3000迭代,并在3000之后稳定下来。但是,使用RGB-LIDAR方法,这些值会发生很大的变化,大约达到110 FPS,但是使用RGB方法,这些值会发生变化,达到大约120 FPS。最近在自动驾驶汽车上使用的摄像机的通用标准约为30 FPS。唯一的区别是摄像机包含的像素比网络输入的像素大得多,但是可以通过缩放来固定此差异。我们可以在训练过程中使用3000次迭代获得一个高效的网络,用于在自动驾驶汽车环境中并行处理三个摄像头。如果我们通过100次迭代训练网络,则最终的网络可以同时处理四个摄像机。

2)准确性:为了显示其他深度信息的性能,我们在AlexNet下比较了传统的RGB图像和我们的四通道RGB-LIDAR图像。通过更改训练集的大小并将训练的迭代次数从100增加到4000,我们比较了两种情况下的平均损失和准确性。

训练集和测试集的三种不同规模如下。
    1)训练集包含5475张图像:1400辆汽车,1360个自行车手,1400个行人和1315辆卡车。测试集包含1368张图像:328辆卡       车,350辆汽车,340 cy登山者和350名行人。
    2)对于交换训练集和测试集,选择1368张图像作为训练集,并且测试集由5475张图像组成。
    3)从总集合中随机选择图像作为训练集,测试集包括5475张图像。

图8显示了相应的平均精度。所有曲线都显示出相似的趋势,并且经过约1000次迭代后,平均精度平稳。但是,带有RGB-LIDAR的AlexNet始终表现得更好,尤其是在进行少量训练(400张图像)时。使用所提出的方法,随着提供的信息深度的增加,当训练迭代次数达到1000以上时,多模型RGB-LIDAR数据显示的精度比纯RGB数据高大约5%。RGB-LIDAR图像始终呈现出更好的效果当使用小于1000的迭代时,ac精度要比基于RGB的训练集高。

3)损失:我们列出了图9(a)-(c)所示数据集组合的相应平均损失。随着迭代次数的增加,平均损耗连续下降。当使用大于500的迭代次数并且训练一小组400幅图像时,AlexNet的损失降至零。与RGB训练集相比,多模型RGB-LIDAR持续收敛更快。

4)分类预测结果:我们在表II中提供了基于RGB-LIDAR方法的分类预测结果的混淆矩阵。主对角线中的值是正确分类的项目的百分比,其余是未分类的项目,并对应于误差的百分比。我们发现主要错误发生在“其他”被分类为“卡车”,而“卡车”被分类为“其他”时。我们认为这两个类对象在当前数据集中非常相似,并且其背景非常相似。这将是我们需要解决的下一步。

C.分类结果比较

Krizhevsky等人提出的AlexNet。在ImageNet LSVRC2010竞赛中将120万张高分辨率图像分类为1000个不同类别,实现的top-1和top-5错误率分别为37.5%和17.0%[29]。Ser manet等人提出的无监督多阶段特征学习。在脚踏检测中产生了10.55%的竞争错误率[30]。Girshick等人提出的基于区域的CNN(R-CNN)算法。在PASCAL VOC数据集上实现了53.3%的平均平均精度(MAP)[31]。Girshick提出的快速R-CNN算法的MAP达到66.0%,并且比以前的VOC更快[27]。随着图像数量的增加,使用CNN的对象分类的平均误差大大增加。在KITTI基准数据集上进行的实验结果表明,与基于RGB的单个模型相比,我们的RGB-LIDAR数据可以达到15%的更低损耗和更高的平均精度。最终分类器的平均准确度可以达到96%的最大值。这意味着,通过附加的高级LIDAR功能,我们可以提高分类器的准确度。

五,结论

在本文中,我们提出了一种融合视觉和LIDAR数据的基于深度学习的方法,用于自动汽车环境中的目标检测。一方面,我们对LIDAR数据的点云进行升采样,然后将升采样的点云数据转换为像素级深度特征图。另一方面,我们将RGB与深度特征图一起转换,然后将数据输入到CNN中。在集成的RGB和深度数据的基础上,我们利用DCNN从原始输入信息中进行特征学习,并获得信息丰富的特征表示,以对自动驾驶汽车环境中的对象进行分类。与仅使用RGB数据或深度数据的方法相比,将视觉数据与LIDAR数据融合的方法具有更好的分类准确性。在训练阶段,使用LIDAR信息可以加速特征学习,并加快CNN在目标任务上的收敛。我们使用公共数据集进行实验,并展示了所提出方法的有效性和效率。
在本文中,车辆上的摄像头和激光雷达用于收集图像和点云图像,而NVIDIA GeForce GTX Titan X和NVIDIA Jetson TX1用于离线检测和分类。在我们的进一步工作中,我们将进行真实世界的实验,并验证所提出的方法在基于车载域控制器的自动驾驶环境中对对象进行分类的能力。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值