基于引导图像滤波的交通标志识别改进框架

摘要

 在雾霾、下雨、光照弱等光照条件下,由于漏检或定位不正确,交通标志识别的精度不是很高。本文提出了一种基于Faster R-CNN和YOLOv5的交通标志识别(TSR)算法。道路标志是从驾驶员的角度和卫星图像辅助的视角检测出来的。首先,对输入图像进行图像预处理,对输入图像进行引导滤波去噪。其次,将处理后的图像输入所提出的网络进行模型训练和测试。最后通过三个数据集验证了该方法的有效性。交通标志识别的结果是有希望的。

1.介绍

为协助道路使用者,我们设置了不同类型的交通标志。图1显示了在路边设置的各种各样的交通标志。然而,由于快速移动或天气条件,仅使用人类的视觉系统很难看到这些标志。因此,先进的驾驶辅助系统已经成为我们关注的焦点[1-3]。目前,交通标志识别算法已经取得了令人满意的结果[4,5],但这些算法主要针对理想天气条件下获取的交通标志数字图像。由于近年来环境的变化,雾霾天气频繁增加,导致图像模糊,从而降低了这些算法的识别精度。针对这一问题,本文提出了一种雾霾天气下交通标志的精确定位与识别算法。

 图1 雾天的交通标志

 交通标志识别(TSR)于20世纪80年代初发展起来,1987年在自动驾驶汽车领域迈出了一大步[6]。它主要针对限速标志,采用了基于图像分割和模板匹配的经典算法。识别过程平均需要0.5秒。由于当时正在开发硬件,系统不能实时工作,图像相对较小,无法集成到实际应用中。

20世纪90年代以来,随着硬件和计算能力的不断提高,世界上出现了先进技术,对TSR原理的发现起了作用。人们提出了多种解决方案,如边缘提取、基于颜色的分割、特征向量提取、人工神经网络等。近年来,随着深度学习[7,8]在语音识别、语义分割等方面的成功应用,深度学习方法逐渐被引入TSR。

现有的交通标志识别算法一般有两个关键步骤:交通标志定位和识别。由于深度学习的迅速发展,本文的目标是在恶劣天气中识别交通标志,因此我们提出了一种基于Faster R-CNN模型的TSR深度学习方法。

本文的其余部分安排如下:第2节对现有工作进行了批判性的回顾。本文提出的方法将在第3节中详细介绍。实验结果将在第4节进行展示和分析。我们的结论和未来的工作将在第5节中介绍。

2.文献综述 

交通标志识别已成为当前研究的热点。随着硬件的进步,获取交通标志图像的方法也越来越多。在图像采集方法上,主要有两种:一是地面光学相机拍摄的路况和交通信息;另一种是利用卫星在太空中向地面发射电磁波获得的高分辨率遥感图像,地面上的道路标志也从这些图像中获得。然后,利用深度学习算法从获取的图像中提取视觉特征,实现道路目标检测。

提出了一种综合的交通标志识别方案[9]。首先,利用训练好的级联分类器快速扫描背景以定位感兴趣区域(ROI),然后利用霍夫变换进行形状检测。基于包含135个交通标志的图像数据库对该方法进行了评价。平均识别速度为25.00帧/秒,识别准确率为93.00%。边缘检测[10]采用彩色滤波和闭合曲线相结合的方法。通过神经网络将提取的特征应用于目标分类。平均识别率达94.90%。通过计算交通标志与其标准模板之间的欧氏距离,利用最近邻法对数字图像中的交通标志进行分类和识别,然后根据最小距离对图像进行分类。

Girshick等[11]提出了一种丰富的特征层次结构用于精确的目标检测和语义分割,区域CNN (R-CNN)使用选择性搜索(SS)代替传统的[12,35]。滑动窗口法在给定图像上提取2000个目标候选区域,然后利用深度卷积网络对目标候选区域进行分类。但是,由于它对每个候选区域进行卷积运算,而不是共享计算,因此检测速度较慢,但分割精度为47.90%。He等[13]提出了空间金字塔池化网络(SPPNets),通过共享卷积特征图来提高速度。快速R-CNN[14,15]提取了卷积特征图,训练过程提高了检测精度和速度。

采用Inceptionv3网络代替VGG-16[36],提出了单次多盒检测器(SSD)[16]来检测交通标志。预训练SSD[38],提出了一种具有先验设计策略的随机中心点。Douville等[17]首先对交通标志图像进行归一化处理,然后提取Gabor特征,最后利用三层感知器对交通标志进行分类识别。将Faster R-CNN与生成对抗网络相结合,提出了一种感知对抗网络用于高速公路交通标志检测[18]。利用残差网络学习小视觉物体特征图与大目标物体特征图的差异,提高公路交通标志识别率。基于清华-腾讯100K数据集,实现了检测结果。

随着卫星遥感技术的发展,基于卫星遥感图像的交通目标检测成为一种新的研究方向。早期,大量研究者基于传统方法实现了卫星遥感图像的目标识别。Huang等[19]根据道路的几何、辐射和拓扑特征对遥感图像进行道路提取,并采用支持向量机(SVM)方法进行分类。决策树分类器的方法与输入图像的递归分割有关。其中分支代表不同的分割路径,叶子代表最终的分类结果。因此,整个树就是分割的过程。

Eikil和Aurdal[20]提出了基于高分辨率卫星图像的车辆检测。首先,采用基于规则的方法将图像分割为正常区域和阴影区域;然后采用基于统计的方法对目标进行分类,并将检测结果与人工识别结果进行比较。实验结果表明,该算法在图像分辨率较低、人工分类困难的情况下,检测结果较好,与人工分类结果接近。

Leitloff 等人[21]采用了一种类似haar的基于特征的AdaBoost算法来识别车辆,并结合直线检测方法来发现车队中的单个车辆。与单纯基于统计学的方法相比,该方法的准确度提高了80.00%。传统方法虽然在基于卫星遥感图像的目标识别中取得了较好的效果,但需要人工提取特征,设计过程复杂,对目标的多样性缺乏良好的鲁棒性。

随着深度学习的快速发展,模式识别领域取得了突破性进展。大量专家已经开始研究基于深度学习的卫星遥感图像目标检测。Audebert 等人[22]提出了一种完全对称的卷积神经网络来获取浅层信息的所有细节,实现了高分辨率遥感图像的语义分割任务。Volpi等[23]提出了一种多路径去卷积方法,以获得更多的底层细节,更准确地判断物体的边缘。作为一个新兴的领域,该方法在目标识别中还存在大量的问题。

Sherrah 等人[24]利用通用图像对FCN(即全连接网络)进行预训练,并将其应用于遥感图像,有效提高了遥感图像中物体识别的精度。Cheng等[25]提出了一种多目标检测框架:旋转不变卷积神经网络(rotate -invariant convolutional neural network, RICNN),该框架有效检测了遥感图像中的多种目标,是一种稳定、高性能的检测框架。然而,RICNN方法对所有物体的平均准确率仅为72.60%,不同类型物体的检测精度存在差异。遥感图像中存在大量小尺寸目标,识别难度较大,是遥感图像目标检测中非常具有挑战性的部分。因此,深度学习有可能应用于卫星图像交通标志识别,并有较大的发展空间。

3.我们的方法

我们看到目前的工作存在以下缺陷,地面角度图像受使用环境的影响,角度、光照强度、雾的浓度对结果都有影响,其中对图像的影响最大,我们主要针对有雾霾天气的TSR。我们在本文中的TSR思想如图2所示。我们首先对雾天图像进行数字图像处理,然后将预处理后的图像输入神经网络进行目标检测和分类。

 图2 TSR传递途径

3.1制导图像滤波

图像去雾是去除雾霾的一个重要过程,它可以增强图像的边缘和轮廓等视觉效果。图像去雾算法一般有两种,一种是直方图均衡化,简单地增强图像的对比度。另一种是基于图像恢复的去雾算法[26],该算法利用原始图像与雾图像进行比较,从而重建出新的图像。该方法去雾效果明显,但难以达到原始图像的质量。

图像滤波能够解决两种去雾算法的不足。该算法采用一幅图像对目标图像进行引导和滤波,使最终输出的图像与目标图像大致相似,纹理与引导图像相似。引导图像或参考图像要么与输入图像本身不同,要么与输入图像相同。如果引导图像与输入图像等价,滤波就成为一种边缘保持操作,可用于图像重建。利用引导图像滤波的视觉特征,对交通标志雾霾图像进行处理,达到图像去噪、平滑、去雾的效果。因此,我们将原始图像定义为pi,li作为引导图像,qi作为输出图像。其关系如等式(1)所示为线性关系。

其中 ak 和 bk 是特定因子,Wk是一个圆心为k的方形窗口。i∈wk保证 ak 不会太大。为了保证引导图像滤波得到最好的结果,需要最小化原始图像与输出图像之间的差异。因此,代价函数E (ak, bk)定义为

 图3  (a)来自FROSI数据库的原始图片(b)经过引导滤波去雾后得到的图片

 如果E(ak, bk)最小,输出就是最好的。我们用ak和bk来求最小二乘法,

 其中u是I在W中的均值,σ是I在W中的方差,W是窗口中的像素数。在等式(1)中输入ak和bk,得到:

3.2改进的Faster R-CNN

卷积神经网络(cnn)通常包括卷积层和池化层,其中卷积层通常用于从目标中提取视觉特征。Faster R-CNN中的特征提取网络基于卷积神经网络,利用CNN和整流线性单元(ReLU)激活函数从目标图像中提取特征,提取的特征分别输入到RPN层和ROI池化层。

传统的方法可以使用滑动窗口或选择性搜索来生成检测窗口。Faster R-CNN选择RPN(即区域提议网络)来生成检测窗口。该网络利用softmax函数来确定锚点(前景或背景)的属性。然后采用回归对其进行校正。最后得到准确的方案。

在图3中,RPN结构用虚线框定。经过3×3卷积后,特征图分别流入两个不同的通道。上层图像采用softmax层进行分类,得到前景和背景。为了获得相对准确的建议,特征通过通道来计算回归的偏移量。最后,在剔除超出边界且值过小的方案的同时,整合之前的信息得到新的方案。有了网络结构,RPN层基本完成了定位目标的操作。ROI池化层的输入是不同规模的提案。然而,卷积神经网络在训练后的输入和输出大小是固定的,它将建议的大小调整为相同。

在Faster R-CNN中,我们对参数进行了微调,将学习率设置为0.01,动量设置为0.90,批大小设置为24,epoch设置为200。输入特征包含了由全连接层和softmax激活函数组成的分类网络的提议,从而获得交通标志所属各类的预测概率。Faster R-CNN显示在等式(5)中。

 其中i代表锚点索引,fi为正样本softmax层的输出概率,f *表示相应的预测概率,l为预测的包围框,l*表示正锚对应的GT(即ground truth)框。

考虑到Faster R-CNN的优点,本文采用Faster RCNN模型对交通标志进行检测。Faster R-CNN利用VGG网[27]作为主干网络。但是随着基础网络的不断完善,本文在实验中使用了GoogLeNet[28]进行特征提取。网络参数如表1所示。

图4 Faster R-CNN的结构 

经过实验验证,基于给定的数据集,GoogLeNet在耗时和模型性能方面都取得了最好的结果。卷积时,取不同大小的核进行卷积运算,将输出的特征图连接在一起。由于交通标志在给定的图像中会呈现多个尺度,在特征提取后,将不同尺度的交通标志表示为特征。我们利用跨层连接来提高多尺度目标检测的性能。

我们设计的跨层连接检测网如图4所示。如图4所示,采用CNN提取整幅图像的特征。利用RPN网络在特征图的基础上提取一系列候选区域。变化在于候选区域的特征组成。该特征不再是仅使用单个卷积层提取的,而是从多个卷积层提取的特征的融合。融合特征不仅包含语义信息,还包含局部信息。 

在给定的数据集中,我们经常会发现大量类似高速公路交通标志的物体。这将产生错误的检测。为了达到减少误检的目的,我们采用了样本挖掘[29]。首先,利用该模型在训练集上进行测试。如果得到的测试结果中存在0.80分或以上的阴性样本,则将其划入新的样本类别。这样,训练集包含两类:交通标志和类交通物体。通过挖掘负样本得到训练集,重新训练新的检测模型。将交通标志分类并加入到训练集中,使模型在训练时间内具有两个类之间的差异。这解决了模型在数据量不足的情况下无法对正类和正类差异较小的背景对象进行分类的问题,从而获得了令人满意的结果。

表1 GoogLeNet的参数 

 

 图5  改进的框架

3.3改进的YOLOv5 

你只看到(YOLO)是一个快速而紧凑的开源对象检测模型。 与其他网相比,在相同尺寸下性能更强,稳定性好。YOLO框架将目标检测视为一个回归问题,它是第一个采用端到端网络来预测可视对象的类和包围框的问题。目前YOLOv5的识别速度比YOLOv4快,网络规模比YOLOv4小。当使用各种数据集进行模型训练时,YOLOv3和YOLOv4需要单独的程序来计算初始锚框,YOLOv5将该函数嵌入到代码中,自动计算不同数据集的最佳锚框。在YOLOv5中,我们对参数进行了微调,根据batch-size设置学习率为1.20×10-3,动量为0.95,batch-size为16,epoch为200。但在实践中发现,聚类结果与样本的统计结果存在偏差,影响了后续试验的性能。因此,本文对先验锚盒回归算法进行了优化,并增加了聚类算法的随机校正处理。

其中表示每三个聚类中心中随机选择两个进行校正, Wb为修正前的前锚点宽度,Wb为修正后的宽度。这些数字分别反映了锚箱的宽度和高度。

可以看到,聚类结果的最小纵横比为0.53,最大纵横比为0.71。然而,对于本文的数据集,70.00%的训练样本的纵横比在0.72 ~ 1.00之间,20.00%的样本在0.60 ~ 0.70之间,10.00%的样本在0.60 ~ 0.70之间。从分析中可以看出,聚类结果与统计结果存在偏差。

与行人和车辆相比,交通标志的物理尺寸较小,大多数样本中存在三种类型的交通标志。由于前景与背景的比例严重不平衡,如果采用一级目标检测器,大多数包围框不包含目标。由于这些非目标包围框的置信度误差比较大,前景的损失被淹没在背景的损失中。因此,本文在原有损失函数的基础上进行优化。优化的主要思想是自适应地平衡前景和背景的损失。损失函数封装了回归损失和分类损失两部分。

 其中S为特征图的宽度和高度。本文的特征图有三种尺寸:52×52, 26×26, 13×13, B为每个锚点位置上的先验方框数;表示框是否负责预测目标的锚点,表示不可靠预测目标;xgt, ygt, wgt, 和 hgt 是 ground truths,xp, yp, wp, 和 hp 是预测值,表示对象的坐标及其宽度和高度(以像素为单位);Cgt和Cp分别代表真实值置信度和预测置信度;Pgt和Pp分别表示分类真值概率和分类预测概率;ω为各损耗部分的权重系数,表示权重。本文设置值为ωcoord=5.00, ωobj=1.00, ωnoobj=0.50,这样设置的目的是为了减少非目标区的损耗,增加目标区的损耗;以进一步避免背景值的丢失对可信度的影响。本文采用Cp作为权重的一部分,自适应地调整背景帧的损失值。

 3.4利用YOLOV5从卫星图像中检测视觉目标

 由于PyTorch的特性,YOLOv5具有很高的灵活性和生产力。YOLOv5采用了CSPDarknet主干、PANet颈部和YOLOv3头部的组合,而不是YOLOv4中的Darknet。最后一个检测层的激活函数是广泛应用于深度学习的非线性激活函数(如sigmoid函数),而不是YOLOv4中的mish函数。此外,YOLOv5还使用了自动学习边界框锚来微调和优化锚的选择。

 图6  YOLOv5的网络架构

 我们选择YOLOv5作为我们从卫星图像中识别路标的算法。首先,YOLOv5将跨阶段部分网络(cross stage partial network, CSPNet)[30]纳入Darknet,并创建了CSPDarknet作为骨干网络。CSPNet解决了大规模主干中梯度信息重复的问题,将梯度变化集成到特征图中,从而减少了模型参数和每秒浮点运算次数,既保证了推理的速度和准确性,又减小了模型的规模。在为卫星雷达传感器获取路标图像的任务中,视觉目标检测的速度和精度是至关重要的,紧凑的模型也有利于其在资源匮乏的边缘设备上的推理效率。

其次,YOLOv5采用路径聚合网络(PANet)[31]作为颈部,促进信息流。PANet采用了一种新的特征金字塔网络(FPN)结构,增强了自底向上的路径,改善了底层特征的传播。同时,采用自适应特征池,将特征网格与各特征层连接起来,使各特征层的有用信息直接传播到下一个子网络。PANet提高了下层精确定位信号的利用率,明显提高了视觉目标的定位精度。

最后,YOLOv5的头部生成3种不同分辨率的特征图,实现多尺度预测,使模型能够处理小、中、大对象。交通标志有不同的类型和分辨率。多尺度[32]检测保证了模型能够跟踪车辆行驶过程中的尺度变化和天气变化。我们最终基于yolov5的卫星图像符号识别的训练目标函数使用了改进的损失函数,如图(7)所示。

4 我们的结果和讨论

4.1 我们的数据集 

数据集GTSDB包含900张图像,共1206个交通标志。交通标志有四种类型:强制、禁止、危险和其他。 由于GTSDB中雾场景不多,我们利用了FRIDA、FRIDA2和FROSI数据库。FRIDA由18个城市道路场景的90张图像组成,FRIDA2由66个道路场景的330张合成图像组成。从司机的角度来看,他们有相同的观点,在每个标志(即让路、小心行人等)上增加了四种类型的雾(即均匀雾、异构雾、多云雾和多云异构雾)。FROSI数据集包含能见度从50米到400米不等的大雾图像,包括不同地点的1620个交通标志。有了这些数据集,就有可能更全面地训练我们的YOLOv5模型和Faster R-CNN模型。在本文中,从驾驶员的角度进行TSR实验,我们将两个数据集结合起来进行训练和测试。其中60.00%的图像用于训练,20.00%的图像用于验证,20.00%的图像用于测试。

在基于卫星图像识别道路标志的实验中,我们使用了我们自己创建的数据集。从谷歌地球上捕获了1000张图像,每张图像都是手动标记的。在这个数据集中,我们主要包括了直、右、左、让行、停车、人行横道、保持畅通等交通标志。如图6所示。在数据集中,每个标识符样本都不均匀,直线标识符最多,自行车道标识符最少。同样,我们采用60.00%用于训练,20.00%用于验证,20.00%用于模型测试。

 图7  道路上交通标志的卫星图像。

4.2评价指标 

在对模型进行训练后,需要对其结果进行评估。准确度是我们最有用的评价指标,它很容易理解,就是要匹配的样本数量除以所有样本的数量。一般来说,准确率越高,分类器越好。同时,我们还采用mAP曲线和PR曲线对模型进行了评价。由于精度考虑了PR曲线中TP和FP的值,在不平衡数据下,精度-召回率(PR)曲线比接收器工作特征(ROC)曲线更准确。

本文采用平均平均精度(mAP)来衡量TSR的评价指标,并将其应用于视觉目标检测领域。测试结果包括四个预测类别:TP, FP, FN, TN。精度是正样本预测的正确率,包括假警报(FP)。召回是针对初级正样本,它表示有多少正样本被正确预测,包括正确拒绝(FN)。因此,计算精度率和召回率分别为等式(8)和等式(9):

 4.3 两种除雾模型的比较分析

在本节中,我们分析和比较了暗通道算法和引导图像滤波方法的去雾结果。图8给出了各去雾算法的输出结果。

 Fig.8  不同场景的去雾方法的结果

结果表明,基于引导图像滤波的去雾算法具有较强的鲁棒性,对多场景有较稳定的去雾效果。引导图像滤波得到了较好的去雾效果,图像颜色失真或变暗的情况较少。同时,它在色彩增强方面起着举足轻重的作用。

4.4数据集划分对实验结果的影响 

在这个实验中,为了找到最合适的划分数据集的方法,我们将数据集分成了三个比例。训练集、验证集和测试集的比例分别为4:3:3、6:2:2和8:1:1。在本节中,我们根据错误率为我们的实验找到一个合适的数据集分割比。在计算错误率之前,我们需要了解偏差、方差和噪声。偏差和方差从两个方面描述了我们训练的模型与真实模型之间的差距。偏差是基于样本的模型输出结果与grand truth之间的误差,即模型的精度。方差是模型的每个输出结果与模型输出期望值之间的误差,是模型的稳定性。错误率由偏差、方差和噪声值相加得到。计算结果如式(10)所示。

 其中x是测试样本,D是数据集,y是测试样本的真实标记,f(x)是用训练集D训练的模型。f(x;D)是用训练集D训练的f(x)对x的预测值,为模型f (x)对x的预测值。我们首先计算4:3:3相关的错误率,训练集的错误率为5.70%,验证集的错误率为8.10%。其次,我们以6:2:2的比例计算错误率,训练集错误率为3.10%,验证集错误率为4.30%。最后,我们计算出,当数据集划分为8:1:1时,训练集的错误率为1.00%,验证集的错误率为7.40%。

在实验中,我们看到如果将数据集划分为4:3:3,验证集和测试集的错误率都比较高,说明训练不够。需要更多的训练样本。我们将数据集分成6:2:2,然后测试结果是理想的。训练集和验证集的错误率降低,两者的差值保持在1.20%,结果较好。最后,我们将数据集分割成8:1:1的比例。从实验结果中,我们发现虽然训练集的错误率已经下降到1.00%,但验证集的错误率已经上升到7.40%。这是过拟合的表现,这样的模型不具备泛化能力,如图9所示。因此,在本文中,我们将数据分为60.00%用于训练,20%用于验证,20.00%用于测试。

 图9 训练集与验证集的错误率曲线

 4.5司机视角下的TSR

 4.5.1我们改进的Faster R-CNN的结果

在我们的实验中,我们测试了各种骨干网。网络的性能取决于网络的能力。因此,直接影响网络性能的特征提取部分需要付出很大的努力。在本文中,我们提供了经典网络作为Faster R-CNN的特征提取网络,以比较不同网络对分类性能的影响。表2给出了不同网络的实验结果。我们看到不同的骨干网有积极的结果。GoogLeNet和ResNet都比VGG网提高了5.10%,同时GoogLeNet的运行时间与VGG相似。因此,考虑mAP和运行时间,使用Faster R-CNN作为对象检测器,采用GoogLeNet作为骨干网。

然后,对图像进行引导滤波处理,将增强后的图像输入设计的网络进行交通标志分类。我们比较了基本的Faster R-CNN网络。表3显示了基于给定数据集的我们提出的方法的具体性能。

表2 基于我们的结果的不同网络的性能。

 表3 与基本的Faster R-CNN网络的对比实验

 图10 实验结果的PR曲线。

在表2中,我们比较了三种网络的准确率、召回率和正确率。我们看到,在目前的数据训练规模下,GoogLeNet在召回率和准确率上都优于VGG网络,但运行时间会相对慢于VGG网络。 与ResNet相比,我们的召回率相对较低,其他指标都比较好。但是,花费的时间要长一点。

在表3中,Faster R-CNN的召回率和准确率都比较高。 原因是现实中有大量的交通标志。因此,我们采用引导图像滤波的方法对图像进行处理。我么提出了一种基于GoogLeNet的特征融合方法用于模型训练。虽然对目标检测的召回率并没有太大的提高,但准确率提高了15.00%,这是因为通过增加困难的负样本,由于图像增强,网络的能力有了很大的提高。图10给出了四种不同分类器的PR曲线。在复杂场景中,一般模型通常不能很好地检测出交通标志。

4.5.2改进YOLOv5的结果

在训练和测试YOLOv5模型时,使用相同的数据集,数据集以相同的方式分割,60.00%用于训练,20.00%用于验证,20.00%用于测试。在本文中,我们修改YOLOv5框架作为TSR网络的基础,并分别训练两个网络。其中之一是标准YOLOv5网,它被用作比较方法。改进YOLOv5算法和原始YOLOv5算法的测试结果如表4所示。损失曲线如图11所示。

表4。对比了我们的实验结果 

 Fig.11。改进的深度学习模型的损失曲线。

4.5.3 YOLOv5与Faster R-CNN的比较 

这些具有相同数据集的模型基于一台配备Core i7-8th CPU、16GB RAM和NVIDIA RTX2060 GPU的计算机进行训练和评估。首先,我们比较了两者的训练时间。Faster R-CNN的训练需要14个小时,YOLOv5的训练需要11个小时,因为YOLOv5的网络规模比Faster R-CNN小。其次,我们比较了两种方法的识别速度。Faster R-CNN的检测速度为17 fps, YOLOv5的识别速度为60 fps。YOLOv5非常适合实时TSR。最后,图12(a)和图12(b)显示了两种网络使用FRIDA数据集的TSR结果。 

我们还比较了Faster R-CNN和YOLOv5在现实生活中的识别结果。图13为晴天下的TSR,图14为雾天下两种方法的识别结果。在图13中,我们可以看到TSR结果,这表明如果交通标志离摄像机很远,Faster R-CNN经常会被遗漏和错误地检测到。相比之下,YOLOv5在识别小物体或移动更快的物体时具有更高的识别精度和速度。图14为基于雾天图像的识别结果,与基于晴天图像的识别结果大致相似。Faster R-CNN在识别小而快速移动的物体时,容易解决物体检测率低和物体识别速度慢的问题。

我们测试的视频由2590帧组成。YOLOv5需要9.00×10-3秒来处理每一帧。Faster R-CNN处理每帧的时间为21.00秒,比YOLOv5要长得多。在相同的准确率下,YOLOv5的识别速度更快。由于TSR通常用于实时目标检测和识别,对计算速度要求很高,YOLOv5非常适合TSR。

图.12。YOLOv5 (a)和Faster R-CNN (b)在FRIDA数据集上的识别结果

图13。晴天TSR结果(a) Faster R-CNN (b) YOLOv5 

图14。基于雾图像的TSR结果(a) R-CNN (b) YOLOv5 

 4.5.4制导图像滤波

在本节中,我们使用YOLOv5作为基本框架来比较去雾和不去雾的识别结果。随着除雾行动,更多的交通标志被识别出来。图15 (a)中,除雾后识别出交通标志。 

           (a) YOLOv5不除雾                                                              (b) 图像引导滤波YOLOv5

 图15。有和没有除雾操作的TSR结果

 4.6卫星图像的TSR

为了进一步扩展交通标志识别,我们利用改进的YOLOv5从卫星图像的另一个视角检测交通标志。YOLOv5模型的超参数为:Batch size和mini-batch size分别为16和4。动量衰减为0.90,权值衰减为0.50×10-3;初始学习率为0.10×10-2,epoch为30。 

图16显示了随着迭代次数增加的多个指标,此时边界盒回归值随着迭代次数的增加而减小,mAP值随着迭代次数的增加而下降。结果表明,本文提出的网络检测结果随着迭代次数的增加而越来越好。网络参数迭代次数越多,查准率和查全率也越高,这表明正样本数量也随着迭代次数的增加而增加。总的来说,随着迭代次数的增加,本文改进的YOLOv5模型对于基于卫星图像的路标检测效果更好。

图17为我们本次实验测试结果的PR(即精密度-召回率)曲线,y轴为精密度,x轴为召回率。我们可以看到,绘制的PR曲线越接近右上方,这证明YOLOv5方法在基于卫星图像的路标识别中具有超强的有效性。因此,基于卫星图像的道路标志识别具有广阔的应用前景。

图18为卫星图像在不同迭代次数下的TSR结果。我们发现,迭代次数越多,识别结果越好。图19显示了卫星图像的最终结果。

 图16。随着各种指标的变化而变化。

 图17。基于卫星图像的TSR 的PR曲线

图18。不同迭代时间下的TSR结果。

5结论 

在恶劣天气条件下,TSR精度不高。本文从驾驶员视角和卫星图像的角度,深入研究了Faster R-CNN和改进的YOLOv5 TSR算法。 我们将TSR识别结果与多个网络进行了比较。如果实验的总体框架是相同的,我们选择优秀的网络作为我们的基础网络。

我们通过跨层连接有效地利用多分辨率特征图,建立了多尺度交通标志对象的特征图。我们采用引导图像滤波的方法去除给定图像中的噪声,进一步提高了实验的准确性。

图19。卫星图像的TSR结果

我们今后的工作主要有两个方面。一是收集更多的交通标志作为复杂条件下的样本,形成我们自己的数据集。二是进一步优化方法,形成端到端的TSR框架[33,34,37,39,40]。 

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值