摘要
车道线检测很重要,其起着提供相关道路信息、辅助车辆定位、前车检测等作用,但是有挑战(光照、遮挡、磨损等)。本文综述了深度学习方法于车道线检测中的应用,主要关注现有方法的网络架构和优化目标。同时本文还阐述了相关数据集、评价指标、通用的数据处理技术,比较了不同方法的检测性能、运行时间。最后给出车道线检测的最新挑战和未来趋势。
引言
深度学习技术与其他学习技术的结合取得了巨大的成功。深度强化学习是深度学习和强化学习相结合的产物。 深度无监督学习是指基于未标记的训练样本来解决各种问题。 它包括生成深度结构,例如自动编码器,深度置信网络(包括Boltzmann机)和生成对抗网络(GAN)。 使用卷积神经网络(CNN)和递归神经网络(RNN)分别对带标记样本的深度监督学习在欧几里得数据和顺序数据上取得了巨大的成功,并且通过贝叶斯深度学习直接在各种非欧氏数据结构上进行监督学习也引起了很多关注。
车道标记检测(Lane marking detection)关注于整个视野内的车道标间,能够更好的理解环境,对有可能发生的危险状况如急转弯提供准备。并且车道标间检测能够在预测车辆运动轨迹、检测前车等方面提供辅助;相对来讲,车道检测(Lane detection)只关注于当前行车道,这对于当下车道状况是不够的。
车道标记与传统目标不同(细长)。光照、遮挡、纹理相似使得车道检测有困难。现有方法可分为基于手工特征提取和基于深度学习。
基于手工特征提取方法可分为三步:
- 预处理。过滤无关特征。常见技术有颜色空间转换(例如灰度化、YCbCr色度空间转换)、均值滤波、定向可控滤波。
- 特征抽取。SIFT、Canny等。
- 曲线拟合。霍夫变换、B样条拟合。
该方法算法简单、检测快。但不适用于复杂场景。
基于深度学习方法可以自动提取特征,在复杂场景下可获得更好的检测结果。原因如下:
- 通过从大量数据中学习,深度学习可以提取出更有助于在各种环境中实现车道标记检测的功能。
- 通过复杂的网络体系结构设计,深度网络可以提取有效的功能。
- 通过构造具有适当约束的优化目标函数,深度网络可以有选择地学习相关类别的表示。
图1展示了不同方法的检测效果。
在复杂场景下基于深度学习的方法是数据驱动型的,这也导致了更大的数据集的出现。然而早期的综述存在只关注相关硬件平台,对基于深度学习方法的介绍过于简单等问题。因此本文提出了更深入的分析,探索不同网络结构背后设计的动机。表1阐述了一些综述的对比。
车道检测数据集
交通场景数据集
KITTI:有一些车道标记,但没有语义分割标签。
BDD100K:标记内容包括道路目标,道路目标类别,可行驶区域和多个城市的车道。 涵盖了各种道路和照明条件下的车道标记数据。
CitySpace:对车道标记没有专用的标签。
ApolloScape:更精确。除车道标记外,数据集还包括按语义(例如感知,模拟场景和道路网络数据)分割的图像。
Mapillary:包含车道标记。
CamVid:很小,只有几百张图片。有像素级别的车道标记注释。
车道标记检测数据集
Caltech Lanes:分辨率低,量少。
Tusimple:经常用了。只是高速公路场景。检测难度一般。
CULane:九种场景。目前来讲最大和最有挑战性的数据集。
VPGNet:消失点。(个人观点,好像这个数据集未公开)。
LLAMAS:无监督的带标签车道标记数据集,用自动创建的地图将标记投射到图像空间中,并且它依靠基于样本的优化来提高标签的准确性。其他数据集不同,每个车道标记上标记的像素数量很小,并且随标记的距离和位置而变化,这使得LLAMAS更具挑战性和现实性。
CurveLanes:主要由曲线车道组成。
DET:用动态视觉传感器( Dynamic Vision Sensor ,DVS)去收集数据集。数据集有低延迟和高动态范围的优点。由于DVS的特性,图像排除了光照变化和多余背景(天空,路面等)的影响。 但是,由于大多数车辆都配备了彩色摄像机而非DVS,因此该数据集的应用范围受到限制。
典型目标函数
目标函数对于深度学习算法的成功起着至关重要的作用。本文主要按下述分类去讨论目标函数。
用于深度监督学习模型的目标函数
Softmax Based Cross Entropy and Variants for classification:
将模型建立为带有良好标注的像素级别分类器。基于全局/局部语义信息取分类一个像素是否属于车道线。
尽管该损失函数已经取得了不错的效果,但还有许多人研究改进该损失函长期存在的问题:难例挖掘、类别不平衡等。
回归损失
MSE、MAE。
Huber损失定义如下:
用于无监督/半监督学习模型的目标函数
深度无监督/半监督学习算法在许多具有挑战性的学习案例中表现出强大的功能,例如缺少足够的带标注的训练数据以及对可解释的深度学习的追求。在现有方法中,自回归模型[82],归一化流模型,变分自动编码器和GAN可能是用于各种计算机视觉任务的最广泛使用的方法,并且车道标记检测也不例外。与完全监督方式的目标函数(例如分类损失和回归损失)相比,深层非监督/半监督模型的目标函数旨在获取高维数据的内在属性。在各种深度生成模型中,GAN可能是最具代表性的模型,其目标函数可以在积分概率度量的框架下定义:
深度生成模型对车道标记检测的潜在研究方向之一就是合成高质量的训练样品。
上述损失函数总结如表4。
采用一种以上的损失函数是很常见的。
车道标记检测网络的发展*(圈重点)*
基于视觉的智能驾驶任务一般采用从车载相机采集的图片作为输入,因此普遍需要用到CNN网络。尽管CNN取得了巨大的成功,但仍存在下述问题需要我们取解决:
- 与普通的语义目标不同,车道标记有不同的颜色(白色、黄色)和独特的形状(细长)。怎么样在设计网络时考虑其专有的特点?
- 车道标记的类型有许多,例如单实线和双黄线。有时只定位车道标记是不够的,怎么样能够设计算法使得