Traffic prediction using artificial intelligence: Review of recent advances and emerging opportunities
兜兜转转,终于回到了我一开始想做的方向,带着些许的惶恐,也带着一些兴奋。现在看来似乎太迟啦,但是好像也不算很迟。种一棵树最好的时间是十年前和现在,所以慢慢来吧!
因为涉及到新的领域,所以读一篇综述是非常有必要的。这篇文章是发表在TRC上面的一篇综述,TRC也算是交通领域的顶刊了。作者是来自特拉华大学(居然是常青藤之前没了解过),和西交利物浦大学合作的。
背景介绍
交通拥堵是一个严重问题,在全球范围内产生的负面影响日益严重。其后果是广泛的,包括事故率增加、出行时间不可靠、燃油消耗增加、空气污染过度以及社会健康状况恶化。例如,《2019 年城市交通报告》估计,美国的拥堵导致每年出行时间增加 88 亿小时,燃油消耗增加 33 亿加仑,总成本约为 1,790 亿美元(Schrank 等,2019) 。因此,优化利用交通基础设施容量以减少拥堵变得至关重要,尤其是在人口稠密的城市地区。
准确的交通预测显着提高了网络容量利用率,同时还通过使交通管理中心 (TMC) 和道路运营商能够更有效地控制交通来帮助缓解拥堵。此外,路线引导和导航系统等其他应用程序也可以利用交通预测方法为旅行者提供更准确的实时信息,更快地缓解甚至预防拥堵。因此,开发更智能、更稳健的交通预测方法将是缓解交通拥堵的重要途径。
交通拥堵主要有两种分类:
- 经常性拥堵通常发生在道路容量不足以容纳现有车辆数量的情况下
- 非经常性拥堵则主要由事故、车辆故障、恶劣天气、工作区域和特殊事件引起。交通预测的一个主要问题是准确预测非经常性交通事件的结果
因此,非经常性事件期间的交通预测是一个需要更多关注的关键研究领域。尽管如此,现有的大多数研究都集中在短期和长期的经常性交通预测问题上,尤其是在上下班高峰期。
本次综述中的大多数新的人工智能方法都试图利用深度学习方法强大的非线性建模能力来捕获多元交通时间序列之间的复杂时空关系。多年来,研究发现了与其他多元时间序列(例如产品推荐)相比,多元交通时间序列的许多独特属性,例如非平稳关系、具有强烈局部性考虑的全局空间相关性、跨多个时间的高时间变异性-框架(例如,最近、每日定期、季节性),以及经常性、非经常性和外部网络影响(例如事故、天气、事件)。在整篇论文中,我们将这些模型及其相关应用称为多元流量预测(MTP)方法。
作者在综述中主要关注了下列的一些问题:
- 文献中如何利用不同的数据类型资源和分类进行流量预测?
- 哪些预处理方法适用并被证明对交通预测应用最有效?
- 文献中如何利用不同的预测模型和方法?它们如何应用于各种交通预测问题?
- 现有交通预测研究中存在哪些根本性的关键开放研究问题和挑战;哪些新兴技术最适合解决这些问题?
数据集
数据类型
准确的流量预测的第一步是获取高质量的数据。一般来说,数据收集操作是由不同的利益相关者(包括政府组织、市政当局、研究人员和商业公司)在不同的时间尺度上利用各种技术进行的。政府机构和市政当局经常测量道路交通,以规划未来的道路、运营和维护以及分析事故风险和环境影响。感兴趣的时间尺度通常是天、月或年,但有时会实时收集测量结果并用于交通控制和事件检测。
数据主要有两个类型分别是时空序列数据和外部数据
时空序列数据
作者大概总结了一下这个领域的数据集,做了个表格如下图所示。
以及利用这些数据集做的一些工作,如下图所示
作者将这些工作进行了大致的分类,分为以下的几类工作
-
固定位置传感器数据,收集交通数据的一种主要方法是利用固定位置传感器,在道路上的特定位置检测附近的车辆。感应圈探测器、摄像头、雷达和光探测与测距(激光雷达)是用于收集数据的标准传感器。这些传感器的空间覆盖范围通常有限,只能测量交通流量、速度、占用率和其他交通流参数。不过,这类数据受欢迎的主要原因是其可用性和与深度神经网络模型的兼容性;这类数据通常不需要大量转换步骤,可以以收集到的格式使用。例如,PEMS11 及其子集(PeMS-BAY、PeMSD3、PeMSD4、PeMSD7 和 PeMSD8)被广泛认为是文献中使用最多的数据集。PEMS 包含 2001 年至 2019 年加利福尼亚州所有主要大都市地区的数据。另一个经常使用的数据集是 METR-LA, 其中包含 2012 年 3 月 1 日至 6 月 30 日从洛杉矶县高速公路收集的交通速度和流量数据,以 5 分钟为间隔进行汇总。此外,LOOP 和 Los-loop 是其他常用的交通传感器数据,分别收集了西雅图和洛杉矶高速公路的数据。此外,在一些研究中,电子收费系统(ETC)及其大量固定位置传感器也被用来收集交通数据
-
轨迹数据,这类数据通常使用专为动态实时数据收集而设计的探测车技术收集。此外,随着物联网和自动驾驶汽车的出现,移动传感器可以提供更详细的信息。这些被称为移动传感器的系统可用于旅行时间数据收集和辅助实时应用,包括交通运行的日常监控、异常事件检测和路线引导。根据文献,智能交通系统探头车辆数据收集系统,如自动车辆识别系统(AVI)、蜂窝地理定位系统和全球定位系统(GPS),通过量化附近车辆、自行车和行人的准确轨迹和运动模式,有助于改善交通预测。此外,它们还能帮助识别有限部署或未部署固定传感器的路段连接。浮动车数据(FCD)是轨迹的另一个子集,可由配备 GNSS 接收器的智能手机或车辆生成。当数据由使用蜂窝网络的手机收集时,一般称为蜂窝浮动车数据。值得注意的是,移动传感器和固定传感器在操作上存在一些差异。固定传感器捕捉时空交通数据时不会混淆车辆位置,但由于其探测范围固定,这些传感器的可靠性可能较低,运行可能会动态中断。因此,在处理从固定传感器部署中收集的大型数据集时,必须考虑中断时段的可能性。同时,共享和私人拥有的移动传感器不会产生与固定传感器相关的一般维护成本(如天气损坏、部件故障、事故、人为破坏),因此具有成本效益。然而,虽然道路上的单个固定传感器可以收集所有数据,但移动传感器需要很高比例的车辆或行人来收集和提供数据,以代表近似地面实况流和所有可能的轨迹。此外,由于与采样率相关的测量或插值误差会导致不确定性,因此必须对 GPS 轨迹数据进行预处理。
现有的公共轨迹数据由 INRIX、HERE、TomTom、NAVTEQ和 TrafficCast等探针数据供应商提供,可分为不同类别。其中一些被认为是出租车数据,包含许多从 GPS 数据中收集的出租车轨迹。T-Drive、TaxiBJ、SZ-taxi、NYC taxi 和 TaxiCD 是用于交通预测的一些著名数据集。Uber 和滴滴 等公司收集的打车数据是另一种类型的 GPS 数据,其中包含打车出行请求及其出行时间、上客和下客地点。因此,这类数据经常被用于交通需求预测问题。此外,公交数据(如 NYC BUS、CHI BUS)、自行车数据(如 CHI-Bike、DCBike、NYC-Bike)和地铁数据(如 SHMetro、HZMetro)也是当前交通预测文献中经常使用的其他类型的轨迹数据。
-
网络基础设施数据,由于网络基础设施数据(如 GIS 数据)在表示空间和时间相关性方面的重要性,开放访问交通数据集中的网络基础设施数据越来越多。更具体地说,在地图匹配等应用中,可利用网络基础设施据将轨迹数据序列映射到道路基础设施上的实际位置,从而提高交通预测能力。这些数据包括道路、地铁和公交网络的拓扑信息。大部分可用的网络基础设施数据都是开放访问的,可从政府机构(如 FHWA)获取,或从开放街道地图(OSM)等应用中提取。值得注意的是,这些地图数据都是由使用手持 GPS 设备、笔记本电脑、数码相机或录音机等工具进行系统性地面调查的志愿者手工收集的。除了 OSM 之外,A-map 也是一款基于智能手机的导航应用程序,在最近的研究中被用于收集网络基础设施数据。
-
行程记录数据,出发和到达时间、日期和地点等行程信息对于交通速度和需求预测十分必要。行程记录数据的收集方式和来源多种多样,包括出租车、叫车服务、电动滑板车、自行车、公交车和导航系统。收集出行记录数据的另一种方法是从现有数据集中提取数据,这些数据集可能包含除传统出发地-目的地对之外的其他形式的出行数据。地铁和公交车上的自动收费系统(AFC)可以自动收集大部分此类数据。此外,行程记录数据还能阐明驾驶员的特征如何影响其驾驶模式、首选路线选择以及其他与驾驶相关的决策。当收集到的信息贴上与驾驶员相关的附加属性(如驾驶员 ID、年龄和性别)标签时,就有可能提高预测的准确性并提供个性化预测。
外部数据
除了时空序列数据外,预测模型还必须能够适应和响应动态的交通和道路环境变化,因此需要考虑外部数据。具体来说,外部数据是指影响交通动态和道路条件的相关因素,这些因素不直接存在于收集的时空序列数据(例如气象和社交媒体数据)中。问题是,这些数据有时在实践中很难收集或无法获得。表列出了利用外部数据的现有研究。下面,我们概述了最常见的外部数据类型及其在生成准确的流量预测模型方面的重要性
- 事件交通数据,这类数据表示道路上突发的、非经常性的交通事件,如事故、体育赛事和可能影响交通流量并造成拥堵的活动。这类数据可以在交通事故报告等一些报告中找到。值得注意的是,异常事件数据也可以在一些收集的交通数据集中找到。不过,如果不参考其他外部数据(如事故),可能很难将其与其他事件和经常性拥堵区分开来。事件交通数据还可能包括轨迹数据,这种数据被认为是异常的,因为它从起点到终点出现的频率很低。一般来说,异常轨迹数据会在清理过程中从数据集中移除,或使用各种技术进行修复,包括活动序列发生概率。不过,这类数据对特定应用也有帮助,例如用于检测出租车司机的异常犯罪行为。
- 施工区数据,道路上的施工活动会扰乱预期的交通流量,给准确预测交通流量带来挑战。例如,施工区通常会对现有道路结构进行修改,如减少或取消车道、变换车道、移除路肩、使用临时信号灯以及降低限速。因此,在很多情况下,额外的交通拥堵是不可避免的,而在这些情况下,准确的交通预测对于减轻负面影响至关重要。
- 气象数据,广义上讲,气象数据包括多种天气因素,如温度和湿度、风速和风力、降水(如雨、雪、冰雹)和恶劣天气(如暴风雨、龙卷风)。例如,太阳强光等气象因素会阻碍驾驶员和传感器的感知能力,从而对道路拥堵产生负面影响,导致意外拥堵的道路事故。近年来,随着自动驾驶车辆的出现,气象事件对交通流量和道路状况(如干燥、潮湿、霜冻、结冰)的影响变得越来越重要,自动驾驶车辆必须配备适当的传感器和配置,才能在恶劣天气期间制定安全的驾驶策略。
- 社交媒体数据,在线社交媒体数据(例如推文)也称为众包数据,为短期和长期流量预测提供丰富的信息。 Facebook、Twitter 和 Snapchat 是过去几年在通信、新闻报道和广告活动中广泛使用的一些在线平台。由于这些社交媒体平台使用应用程序编程接口(API)提供实时数据检索,因此许多研究人员利用社交媒体数据来更好地了解人们、他们的决策和城市交通系统之间的关系。然而,虽然社交媒体数据通常是免费提供的,但它必须经过挖掘,并且由于人为因素可能不可靠。
- 疾病传播和流行病数据,COVID-19 在全球范围内的大流行引起了人们对交通预测的广泛关注,原因是社会流动模式发生了巨大变化。大流行事件会严重影响现有模型的预测性能。需要开展更多研究,以调查和量化非经常性全球大流行对短期和长期交通预测的影响(Macioszek 和 Kurek,2021 年)。值得注意的是,在大规模生物突发事件中,公共卫生机构通常会使用配药点 (POD),向受影响的人群分发医疗对策。虽然公共卫生界对 POD 的临床操作方面进行了研究,但对交通系统如何支持 POD 的使用以及 POD 位置的选择如何影响道路交通却关注甚少。例如,为了准确模拟 PODs 运营对交通的影响,有必要考虑有关 POD 停车容量的预期需求以及任何给定时间内附近道路的交通容量。
数据分辨率
在训练交通预测模型时,数据分辨率是一个重要的考虑因素。目前,数据采集技术可以获取各种分辨率的交通数据,以满足交通管理和控制应用的需要。具体来说,定义适当的数据分辨率是一个关键问题,尤其是在数据驱动算法中,因为它会影响时空相关性的质量,而时空相关性是可以从基础数据中学习到的。本节概述并介绍了交通预测中常用的两类数据的分辨率:时间数据分辨率和空间数据分辨率。
时间数据分辨率
数据分辨率与预测范围和步长密切相关。范围描述了预测的时间窗口(如一天、一周、一个月)。同时,步长表示范围内的预测频率(如每五分钟、每小时、每天)。例如,预测模型可以预测整个月的日流量。换句话说,确定最合适的预测间隔(步骤)与要集成算法的智能交通系统应用类型有关。一方面,预测时间范围越长越好,以便为控制和反应提供足够的时间。另一方面,预测误差越小越好,以便为交通管理中心和个人用户的反应提供准确的信息。
查阅文献发现,大多数先前的交通预测工作都是在特定的时间间隔内汇总数据,一般不少于 5 分钟。然而,这个时间间隔可能无法很好地为动态运营决策(如智能信号配时系统)提供信息,因为动态运营决策需要更短时间间隔的实时交通信息。关于更高分辨率的数据,物联网技术的日益发展,以及数据处理和存储技术的改进,使得许多交通系统都能收集和存储高分辨率的数据。因此,可以利用从高分辨率数据中获得的信息更有效地预测交通。然而,基于高分辨率数据进行准确的交通预测仍然具有挑战性,因为这类数据通常会出现强烈的波动。高分辨率数据缺乏 “平衡”,这给预测问题带来了挑战:稀疏表示的数据类别往往会被传统预测模型忽略,尤其是在不平衡明显的情况下。实质上,低频标签被视为离群值,并在模型训练和评估之前从数据中排除。
空间数据分辨率
在文献中,空间数据分辨率一般从几百米到几公里不等。不同的数据源可能具有不同的空间分辨率。例如,与固定位置探测器数据相比,固定位置探测器数据的空间分辨率通常较高(平均每 100 米收集一次数据),而探测器位置(数据收集点)之间的间距通常为 1-3 千米。由于分辨率高,可以直接绘制 FCD 图来说明交通动态。与此同时,在后处理过程中,必须对固定位置检测器数据进行插值,以重建时空网络动态。因此,FCD 数据通常更有助于阐明数据内部的空间相关性,因为与孤立和固定位置检测器相比,FCD 包含了整个路段的信息。此外,FCD 还能提供未部署传感器的网络区域的交通信息。
虽然大多数交通预测研究中的空间分辨率水平都是定制的,但有些数据集引入了特定的地理单元作为空间分辨率。例如,INRIX 架构使用 TMC 区段和 XD 区段作为定义路段的基础,以报告车速和事故数据。TMC 位置代码最初被视为道路网络上的点,通常分配在重要的决策点、互通式立交桥或交叉路口,以独立于地图供应商的特定格式描述交通事故(如事故、施工、交通减速)的位置。INRIX XD 区段与 TMC 区段类似,都是划定道路的特定路段;但它们解决了 TMC 区段的一些局限性,如有限的道路覆盖范围、区段重叠和缺口以及区段分辨率。此外,XD 区段完全由 INRIX 定义和维护。因此,INRIX 可以为尚未定义 TMC 位置代码或 TMC 区段的路段或新道路创建 XD 区段。XD Segments 的最大长度为 1.5 英里,与 TMC Segments 相比,XD Segments 提供了更加一致、明确和细化的路段定义,后者的长度根据相邻 TMC 位置代码之间的距离而有很大差异。
数据处理
为了有效预测交通流量并解决问题,需要对收集到的原始数据进行预处理,以去除无关、冗余、嘈杂和不可靠的数据,从而防止产生误导性结果,同时获得更准确的见解。
地图匹配
最常见的预处理方法之一是地图匹配。**这一过程将数据中的经纬度坐标分配到地理道路网络上的位置。**值得注意的是,有必要将实用的地图匹配算法应用到原始位置数据中,以产生有意义的结果,因此,针对这一问题开展了许多研究。Quddus 等人(2007 年)、Wei 等人(2013 年)和 Zheng(2015 年)介绍了各种地图匹配分类方法,而 Chao 等人(2020 年)则从技术角度对现有方法提出了四种新的分类方法:相似性模型、状态转换模型、候选者演化模型和评分模型。随后,Yuan 和 Li(2021 年)提出了不同的分类方法,根据数据的几何信息、路网拓扑结构和全局最优匹配特征,将方法分为五组: 点-距离法、路径-距离法、基于概率法、基于模型法和基于学习法。
尽管地图匹配有助于澄清和解决交通预测数据的不确定性,但收集数据的不准确测量和低采样率会带来质量问题,从而给地图匹配方法带来挑战。例如,为了解决地图密度变化引起的匹配不确定性问题,Quddus 和 Washington(2015)提出了一种新的最短路径和车辆轨迹辅助地图匹配(stMM)算法,用于在道路地图上匹配低频 GPS 数据。在最近的工作中,辛格等人。 (2020) 应用一种新颖的遗传算法来评估稀疏和密集的 GPS 数据以进行地图匹配。 DMM 是一种使用循环神经网络 (RNN) 的蜂窝数据快速地图匹配框架,也被提议在给定一系列蜂窝塔的情况下找到最可能的道路路径(Singh 等人,2020)。该方法与常用的隐马尔可夫模型(HMM)形成鲜明对比,后者会产生大量计算开销,并且在大型数据集上扩展性较差。
数据清洗
准确高效的流量预测依赖于干净的时空数据。在数据清理期间,损坏的、格式不良的、重复的或不完整的数据将被修复或从数据集中删除。值得注意的是,数据清理技术根据潜在问题和数据类型而有所不同,但它们可以大致分为三类
-
数据缺失:缺失数据的挑战可分为两类:短周期缺失值和长周期缺失值。短周期缺失值包括从 1 秒到约 5 分钟的中断,主要由不稳定的设备或杂乱的环境造成。由于在这种情况下周围的时间信息非常丰富,因此通常采用时间平稳性来推断缺失值。另一方面,长周期缺失值可能会持续数小时甚至数天,主要是由系统故障造成的。
当不存在历史轨迹数据的时候也会出现冷启动问题,传感器可能每天不断地添加和删除,使得冷启动问题成为不断发展的交通网络中的实际考虑因素
-
数据异常值:
-
数据不平衡:
数据存储和聚合
交通网络内的各种物联网设备和传感器(例如手机、RSU、交通摄像头)收集的时空数据量大幅增加,这表明需要改进数据存储和聚合系统。虽然数据量的增加无疑提高了流量预测的准确性,但也带来了相当大的计算、传输和存储成本。此外,文献中用于现代交通预测的复杂深度学习模型通常需要将数据聚合到集中位置(例如数据中心),从而带来额外成本。为了解决这些缺点,最近的一些研究集中在利用各种分布式系统(例如区块链网络)来有效地存储和分片数据,以便在各种 ITS 应用程序中使用
数据压缩
数据压缩是另一种预处理方法,旨在减少数据集的大小,同时保留最关键的见解。文献中提出了不同的在线和离线算法来压缩来自大型和多样化城市网络的数据,信息损失可以忽略不计,并且可以有效地表示所有类型的数据。离线方法可以分为基于简化的方法或基于道路网络的方法,应用于原始轨迹数据,以消除一些不相关的数据点并提高整体压缩质量。另一方面,在线方法侧重于使用基于窗口的方法或基于移动属性的方法及时压缩轨迹数据。
交通流预测模型和方法
交通预测问题代表一种时空时间序列预测问题,其中输入包含以一个或多个时间序列表示的交通变量(例如流量或速度),输出是对未来状况的预测。单个时间序列的预测方程可以表示为:
y
t
+
T
′
=
f
(
[
X
t
−
T
+
1
,
X
t
−
T
,
.
.
.
,
X
t
]
)
y_{t+T'}=f([X_{t-T+1},X_{t-T},...,X_{t}])
yt+T′=f([Xt−T+1,Xt−T,...,Xt])
简单来说,上式就是拿过去的一段时间,去预测未来的一个时间的值。
一般来说,交通预测模型要么是单变量模型,即输入数据由来自单个传感器的单一时间序列组成;要么是多变量模型,即在单一框架内考虑整个网络中多个传感器的时间序列(Nagy 和 Simon,2018 年)。多变量时间序列预测方法本质上假定变量之间存在相互依赖关系。换句话说,每个变量不仅取决于其历史值,还取决于其他变量的历史值。如今,大多数模型都是多变量模型,并试图捕捉整个交通网络中收集的交通数据之间复杂的时空关系。
最值得注意的是,时空关系是流量预测的基础。许多精确交通预测的方法都考虑城市道路网络的拓扑结构(空间)和动态网络随时间的变化(时间)。然而,直到最近才考虑联合时空关系(例如,其他网络节点的历史趋势对给定节点的未来状态的影响)。由此产生的数据驱动的流量预测方法可大致分为三类:(1)统计方法,(2)传统机器学习,以及(3)深度学习。与更先进的机器学习方法相比,统计方法特别适合较小的数据集,受益于清晰和简化的计算结构。然而,传统的机器学习算法更适合捕获复杂的非线性相关性并处理交通相关数据中固有的高维数据。
与此同时,计算能力和数据访问的增强导致了基于深度学习的模型的流行,这些模型具有高度复杂的结构,并且在假设有足够数据的情况下,其性能优于许多广泛使用的传统方法。话虽这么说,考虑到联合捕获局部和网络范围的时空关系的重要性以及各个模型的不同权衡,结合多个模型的混合方法近年来在研究人员中变得流行。一般来说,混合方法遵循基于集成的设计 Dietterich (2000),其中来自多个模型的预测被加权并融合以产生最终预测。最近在交通预测中,Wang等人提出了新的贝叶斯组合方法(NBCM)已被证明可以有效利用不同的子预测变量。另一种混合方法寻求按顺序连接不同的深度学习架构,以便一个网络学习和输出的隐藏表示可以用作后续模型的输入。在这些设计中,以卷积为中心的模型(例如 CNN、GCN)通过高效的深度架构从输入数据中提取基本特征,然后将编码特征输入到基于 RNN 的门控设计中以捕获时间依赖性。我们将在未来的小节中讨论现有文献中最有趣的混合方法。
基于统计方法
统计模型将预测视为回归问题,由于其清晰的计算结构和强大的理论解释能力,被广泛应用于短期交通预测。对于非学习方法,例如 k 最近邻(KNN)、历史平均值(HA)和传统向量自回归(VAR)模型,考虑下游和上游流量的影响通常会提高预测性能。
相反,非线性回归、平均算法、平滑、贝叶斯网络(BN)和卡尔曼滤波(KF)是使用观察到的地面实况数据分析和预测时间序列的常见参数技术。此外,自回归积分移动平均 (ARIMA)及其变体是最综合的方法之一,并且经常应用于交通预测问题 。 ARIMA 是自回归移动平均 (ARMA) 模型的扩展形式,专门用于时间序列数据中的未来点预测。 ARIMA 的其他变体,包括季节 ARIMA (SARIMA)、带解释变量的 ARIMA (ARIMAX)、Kohenen ARIMA (KARIMA) 和矢量 ARIMA 也存在于文献中,并且已被证明可以提高交通流预测精度。
尽管适用于只有少数时间序列且观测周期较短的较小数据集,但由于简化且透明的计算结构,统计方法通常缺乏考虑时空关系的复杂性,而是只关注时间序列数据。因此,由于这些统计模型无法考虑固有的空间依赖性,因此它们的预测能力对于交通预测应用而言受到限制。为了克服这一挑战,一些研究开发了基于扩展时间序列的方法,其中扩展以新的方式考虑了空间和时间的相互作用,例如 ST-ARIMA 。
总之,外生变量是流量预测以改进我们的模型的重要考虑因素。然而,本文的案例研究有限,仅考虑外生时间变量,例如是工作日还是高峰期。需要更多的研究来看看这种考虑外生变量的方法是否可以进一步改进并集成到尖端的 MTP 模型中。
传统机器学习方法
除了经典的统计方法之外,基于机器学习的方法在流量预测中也变得越来越流行。与经典方法相比,机器学习模型可以提供更强大的泛化能力,同时还能够学习更复杂的关系并更好地适应交通网络不断变化的条件。
传统的机器学习方法可以分为三类:基于特征的方法、高斯过程模型和状态空间模型。
基于特征的方法用于使用人工设计的交通特征来训练回归模型来解决一些实际交通预测问题;虽然基于特征的模型很容易实现,但高斯过程方法利用多个核函数来表征交通数据的内部特征,同时结合空间和时间相关性;状态空间模型假设观察结果来自马尔可夫隐藏状态。状态空间模型擅长捕获潜在数据结构,并且可以自然地对系统的不确定性进行建模,这是流量预测应用程序的理想属性。然而,这些模型很难概括非线性关系(Tan et al., 2016; Duan et al., 2018; Shin and Sunwoo, 2018; Ishibashi et al., 2018; Kong et al., 2018),并且它们并不总是复杂和动态交通数据建模的最佳选择,尤其是长期预测。
多元交通预测的深度学习
基于DNN模型
-
基于MLP,MLP 最初因其概括交通数据中的非线性关系的能力而在交通预测中流行,但现在已不再使用,取而代之的是更强大的深度学习模型,更适合交通预测
-
基于AE (Autoencoder),AE。自动编码器(AE)方法是各种人工神经网络,它们以无监督的方式学习未标记数据的有效编码。在流量预测中,AE 主要用于估算或有效压缩数据,在保留最重要信息的同时降低其维度。网络设计在最高级别上相对简单,有两个主要部分:(1)编码器,将输入(x)压缩为更少的位; (2) 解码器采用输入 (x′) 的稀疏表示并输出原始值。
-
基于RBM(Restricted Boltzmann Machines),是一种以无监督方式学习的随机神经网络,在文献中被广泛用于二元变量建模(图 3)。与传统的神经网络模型不同,RBM 在原有多层神经网络的基础上加入了特征学习部分。特征学习部分模仿人脑处理数据信号分类。具体操作是在原有的全连接网络层前增加卷积层和维度层的部分连接。简单来说,传统浅层神经网络的投影步骤是从特征映射到数值,人为选择字符。RBM 的投影步骤是从信号到特征,再到值。网络可自由选择数据特征
CNN
具体的关于CNN的一些信息这里就不过多赘述了,无非就是卷积池化那一套,大家可以参考一下其他的资料。
对于 MTP 应用(例如流量或速度),其实就是多远交通预测,CNN 提供了一种捕获道路网络内链路或节点之间的局部时空依赖性的方法。将 CNN 应用到 MTP 问题背后的直觉围绕着卷积和池化操作,它们共同从输入数据中学习局部特征。值得注意的是,这些特征是从原始输入中以无监督的方式自发发现的,使模型能够理解以前未知的本地依赖关系。由于来自同一链路上邻近节点的交通时间序列数据可能是相关的,因此多项工作已经证明了利用基于卷积的深度学习模型从多元时间序列数据中提取局部空间依赖性的有效性。在探索使用 CNN 进行 MTP 的首批作品之一中,Song 等人。 (2017) 将经过深入研究的 MLP 架构的两个版本与基于 CNN 的模型进行了比较,用于预测首尔内四个直接连接的道路链路的交通速度。在此设计中,为每个链接开发了一个 CNN 模型来捕获链接内节点依赖性,而第五个 CNN 则对时间特征进行建模。最后,汇总每个模型的输出以产生最终预测。案例研究表明,CNN 方法可以更好地表示同一链路内节点之间的局部空间依赖性,与最先进的 MLP 方法相比,预测精度提高了 6% 以上。然而,本文使用的 CNN 模型仅对单个链接内的节点子集进行卷积,忽略了链接间的依赖关系。扩展 CNN 模型的空间维度需要在性能和计算需求之间进行权衡。捕获远程基础设施之间的远程互连依赖关系(例如,郊区高速公路与 CBD/市中心区域之间的流量关系)需要许多卷积层并增加网络深度。
基本上很多工作都是将传统的CNN结合到这个问题上,很多论文提出取消池化可能有助于提高精度,以及和LSTM结合包括GCN结合来解决问题,虽然上述工作将更传统的 CNN 模型结构应用于 MTP 问题,但相关研究提出了针对时间序列预测优化的基于卷积的网络。值得注意的是,Lea 等人的开创性工作。 (2016)首次引入了时间卷积网络(TCN),用于在动作分割领域捕获不同尺度的高维时间序列的全局模式,激发了创新。在此工作之前,主要方法涉及使用两个高级深度学习模型(通常是 CNN 和 RNN)来捕获局部和全局模式。相比之下,所提出的 TCN 方法提供了一种统一的方法,使用一维卷积、池化和通道归一化的组合,在局部、中间和全局级别分层提取时间特征。(和yolo的感觉很像)
值得注意的是,与标准 CNN 相比,TCN 中的一维卷积层有两个不同点:(1) 因果关系,这意味着每一层的输出仅根据最新的历史样本生成;(2) 扩张,这确保每个滤波器仅检查历史样本的子集。更简单地说,扩张不是在输入样本的连续时间窗口上执行卷积,而是在卷积输入之间插入一个固定的步长,从而在保持较低参数数量的同时增加感受野(Burrello 等人,2020 年)。此外,与基于 RNN 的模型相比,基于一维卷积的设计大大缩短了时间序列建模的训练时间,因为激活函数是分层计算的,而不是像 RNN 那样按顺序计算。虽然 TCN 是为动作分割而设计的,但它解决了一个与 MTP 模型共同面临的问题:如何将低级和局部时空特征与高级时间趋势(如季节性)结合起来。
最近的研究试图改进最初的 TCN 设计,并将其应用于 MTP 预测。Sen 等人(2019)提出了 DeepGLO:一种基于 TCN 的混合预测模型,设计用于大规模 MTP 问题,包括来自 228 个交通传感器的时间序列。这项工作的一个重要贡献是,DeepGLO 能够在预测过程中考虑全局网络模式。相比之下,其他方法(如 CNN、RNN)通常只关注局部的过去数据(如仅来自特定检测器的过去数据),尽管它们是在整个时间序列集上进行训练的。DeepGLO 采用时间正则化矩阵因式分解(TRMF)模型,通过 TCN 归一化,输出代表全球趋势的特征,从而实现全局思考,局部行动。值得注意的是,TCN 正则化过程需要捕捉非线性关系,因为标准 TRMF 方法只能描述线性趋势。然后,输出的全局级特征被用作另一个 TCN 模型的协变量,产生一个在预测过程中联合考虑历史局部和全局趋势的最终模型。案例研究结果表明,与包括时空图卷积网络(STGCN)在内的现有前沿方法相比,DeepGLO 在 MTP 方面非常有效。然而,DeepGLO 并没有直接与其他竞争性混合模型进行比较,因此很难进行交叉比较。
总之,研究表明,基于 CNN 的模型能有效捕捉多变量交通时间序列数据中复杂的时空动态。一维和二维卷积在识别不同空间粒度的相邻时间序列之间的关系方面大有可为;不过,它们需要不同的输入表示法和不同的顺序堆叠层和过滤器。最近,一些前沿方法将卷积操作集成到了新的混合模型中,如 Conv-LSTM、TCN 和 DeepGLO,并取得了巨大成功。然而,我们必须考虑到,传统的卷积运算是针对欧几里得空间的数据设计的,这可能会扭曲底层路网结构,破坏关键的空间关系。此外,传统 CNN 模型中包含的池化操作会通过子采样进一步扭曲道路网络,多项研究发现使用全卷积方法可以取得成功。尽管如此,文献中各种方法之间的交叉比较仍具有挑战性,因为这些研究使用了不同的数据集,并将其方法与不同的基线进行比较。用于其他 MTP 应用的标准化基线数据集和用于与新方法进行比较的标准化基线模型集将极大地丰富现有文献。
RNN
递归神经网络(RNN)是 FNN 模型的演变,旨在提高时间序列数据的性能。传统的 FNN ANN 设计在对序列和时间序列建模时表现不佳,因为它们缺乏记忆单元。相比之下,RNN 由于增加了记忆单元,因此在处理序列和时间序列数据时表现良好。更具体地说,RNN 模型按顺序处理输入,并通过不断更新一组隐藏状态来保持内部记忆。这样,基于 RNN 的模型就会考虑相邻时间步之间的依赖关系,而传统的 FNN 则会独立处理时间步。如图所示,在预测过程中,当前时间步的输入与前一时间步的输出一起被提取。由于 RNN 网络使用了环路,原始的反向传播 (BP) 方法无法奏效。因此,该网络使用时间反向传播(BPTT)(Werbos,1990 年)进行训练。
最早提出的 RNN 是一个两层全连接的神经网络,在隐藏层中有一个反馈回路,增加反馈回路是其主要贡献。然而,由于涉及反向传播,这种简单的设计在训练大型网络时容易出现梯度消失或爆炸,从而在处理扩展的多变量交通时间序列时出现问题。更具体地说,在网络中添加更多的隐藏层会导致更多的导数,这些导数必须在每次网络传递时进行乘法运算。因此,如果乘积很大,梯度就会在大型网络中爆炸,导致运算超载。另一方面,如果导数非常小,持续的乘法将导致梯度消失,并可能出现算术下溢。总之,对于传统的 RNN,过去的输入对输出的影响会在循环连接中以指数形式衰减。因此,RNN 只能处理短期依赖关系的序列处理问题,而在对长期依赖关系建模时,则会因梯度消失问题而失败。为解决这一问题,文献提出了一类新的门控 RNN,并针对各种应用提出了多种设计方法。门控 RNN 最常见的变体是长短期记忆(LSTM)(Hochreiter 和 Schmidhuber,1997 年)和门控循环单元(GRU)(Cho 等人,2014 年)模型。
在这里作者着重介绍了关于LSTM以及GRU的一些细节,这里也不过多赘述了。
在最近的文献中,LSTM 和 GRU 在提高我们的 MTP 能力和理解能力方面发挥了至关重要的作用。随着智能交通系统的出现,数据生成量急剧增加,许多交通时间序列数据集都具有很高的维度(例如,网络中的每个检测器都有一个维度)。在 LSTM 和 GRU 中添加记忆单元可使模型学习数据中的长期时间依赖关系,即使这些数据表示稀疏,这也使它们高度适用于 MTP 应用。值得注意的是,在最近的方法中,LSTM 和 GRU 很少单独使用;相反,研究人员提出了将它们纳入混合设计的独特方法(Dai 等人,2020 年)。
在罗等人。 (2019) 研究中,设计了一种改进的 KNN-LSTM 架构来优化基于 LSTM 的交通流预测模型。值得注意的是,KNN 算法通过计算每个站测量值之间的相似性来提取网络内时间序列(传感站)之间的时空相关性。同年,赵等人。 (2019a) 提出了一种替代的基于 RNN 的混合 MTP 模型,将 GRU 与 GCN 结合起来创建 T-GCN 架构。在这种新颖的方法中,设计了一个 T-GCN 单元,它对输入数据执行图卷积,然后将其输入 GRU 启发的一系列门(例如重置和更新门)以产生最终预测。选择 GRU 而不是 LSTM 是因为它具有相似的性能,但复杂性降低(Chung 等人,2014),需要训练的参数更少。图卷积用于提取有利于欧几里得卷积的空间特征,因为图已被证明可以更好地表示交通网络的链路和节点结构。值得注意的实验结果表明,T-GCN 设计可以优于其他流行模型(包括独立 GCN 和 GRU)的预测,凸显了共同考虑流量数据时空趋势的重要性。有趣的是,该模型在局部最小值/最大值处的预测效果很差,这可能是图卷积期间应用的平滑滤波器的副产品。此外,平滑产生的微小变化可能无法模拟交通网络内链路间依赖性的严酷和随机变化,尤其是在高峰时段。
总之,RNN 模型在对多元交通时间序列数据的时间特征进行建模方面表现出了良好的前景。虽然早期的方法在设计中主要使用基于 LSTM 的 RNN 架构,但多项工作都强调了基于 GRU 的模型的竞争性能,并因其降低的复杂性和更快的训练时间而更喜欢它们。此外,最新的尖端 MTP 方法将基于 RNN 的设计集成到更复杂的混合模型架构中,旨在共同考虑时空流量趋势。将基于 RNN 的架构应用于 MTP 的动机源于它们捕获时间序列数据中的短期(例如,每日周期性)和长期(例如,季节性)趋势的强大能力。**然而,最近的研究表明,有必要采用混合方法来共同考虑路网内链路和节点之间的空间关系,例如CBD严重拥堵对下游住宅区的影响。空间关系还具有固有的时间成分,因为网络某一位置的事件的影响需要时间来传播,这进一步凸显了共同考虑时空特征的重要性。**值得庆幸的是,学者们提出了多种有前景的混合方法来增强基于 RNN 的模型的空间能力,包括非参数方法(例如 KNN)、基于图的卷积(例如 GCN)、卷积 RNN(例如 Conv-LSTM)和传统统计(例如皮尔逊相关系数)。话虽如此,尽管每项研究都证明了他们提出的方法与一些现有的流行方法相比的优越性,但实验中使用的数据集不同,并且模型没有直接交叉比较。因此,未来的研究需要阐明 MTP 应用是否存在理想的模型架构。
GCN
图形卷积网络(GCN)是 CNN 模型的演变,旨在对结构化图形输入执行卷积,与传统卷积的欧几里得结构输入数据形成对比。如 CNN 部分所述,卷积操作是一种经过深入研究的方法,可用于提取 MTP 模型中道路网络的空间特征。如图 6 所示,在卷积过程中,模型会学习许多用于检测与交通流量或速度相关的链路间关系(特征)的过滤器,通过考虑相关链路间固有的时间依赖性来提高预测性能。然而,在欧几里得空间中建立道路网络模型需要基于网格的表示方法,这会扭曲节点之间有意义的连接,限制模型的有效性。例如,两条相邻的道路在欧几里得空间中可能非常接近,但却没有联系,并表现出截然不同的特征,这就限制了基于图像的传统卷积方法在 MTP 模型中的有效性。因此,科学家们开始尝试在 MTP 模型中使用图形卷积,以替代广泛使用的欧几里得卷积。
尽管上述基于图的卷积模型在 MTP 应用中具有显着的适用性,但在 GCN 出现之前,研究人员很少考虑它们。这项工作的主要贡献是通过 Bruna 等人的谱图卷积方法的局部一阶近似来简化图卷积。 进一步减少参数数量并提高学习速度。具体来说,卷积被局部化以仅考虑 K 最近的节点,从而产生表示为 K 阶多项式的截断滤波器。通过截断表示,可以顺序堆叠许多滤波器,从而使更深的网络具有更好的逼近能力,并且仍然可以有效地进行训练。虽然这项开创性的工作为许多未来的 MTP 工作奠定了基础,但原始的 GCN 在无向图上运行,无法表示交通网络中复杂的交通扩散(例如,上游和下游交通依赖性、有向道路)。此外,GCN 中用来降低计算复杂性的近似隐含地假设了相等局部性,该局部性归因于连接到节点的所有边之间的相等关系。实际上,这种假设并不成立,因为尽管道路相互连接,但其设计时却采用了不同的分类、容量和目标,从而限制了 MTP 应用的原始 GCN 的性能。
随后的研究试图通过对原始 GCN 结构提出修改来解决 GCN for MTP 的缺点。吴等人。 (2019) 通过提出 Graph WaveNet 扩展了 GCN 的功能:一种基于空间的图卷积方法,将图卷积与扩张随意 (1D) 卷积相结合。 Graph Wavenet 动态学习邻接矩阵,而不需要明确且固定的图形结构,从而带来两个主要好处:(1)节点相互依赖关系可以随着网络条件的变化而动态更新; (2)模型可以阐明没有直接连接的节点之间的隐藏影响。此外,这种方法可以随着网络拓扑的变化(例如,添加或删除传感器和链路)动态地合并新时间序列的添加,从而提供了从不断发展的实时流量数据流中学习在线 MTP 模型的机会。
同样,Yu 等人(2020 年)也建议在 GCN 架构中加入动态邻接矩阵;不过,这种方法是从对应于过去特定时间间隔的输入数据中学习多个邻接矩阵。与扩散卷积类似,这种方法背后的直觉是让模型模仿流量传播的自然现象,即任意两个节点之间的流量相关性随时间变化,并根据直接的上下游连接进行传播。最值得注意的是,作者在每个节点中都编码了额外的特征,包括每个路段的容量和长度,这表明将先前的领域知识纳入深度学习模型可以提高性能。
总之,GCN 模型已被证明是 MTP 建模的实用组件,特别是用于提取多变量时间序列中的空间关系。Kipf 和 Welling(2016 年)的开创性工作首次提出了 GCN,将 CNN 模型推广到任意结构图上,与欧几里得空间形成鲜明对比。对于 MTP 应用而言,图可以直观地表示交通网络中的空间关系,而基于网格的欧几里得表示法则会破坏复杂的底层结构。GCN 的早期应用将其稳健的空间特征提取与基于完全卷积或门控 RNN 的层依次结合起来,共同捕捉时空趋势。然而,由于顺序设计,一些重要的趋势可能会丢失。此外,早期的尝试利用的是静态邻接矩阵,不能很好地映射交通传播的实时现象,因为任何两个路段之间的关系都是动态的。最近的研究提出了多种学习动态邻接矩阵的方法,包括 Song 等人(2020 年)和 Wu 等人(2019 年),这提高了基于 GCN 模型的预测性能。此外,有研究表明,在建模过程中同时考虑宏观和微观网络层关系可以改善预测结果,但如何确定道路网络的最佳宏观表示仍是一个有待解决的研究问题。
WNN
小波神经网络(WNN)是一种结合了小波变换和 ANN 的集成网络,由 Zhang 和 Benveniste(1992 年)提出,旨在解决收敛性能问题。总之,虽然作者无法从理论上保证他们的方法能成功收敛,但他们在实验中证明,与旧方法相比(旧方法通常会发散,而他们的方法却能持续收敛),他们的方法有了显著的改进。一般来说,WNN 的目的是在特征空间中找到一组能反映原始信号内部复杂关系的小波。WNN 是作为函数逼近的工具而诞生的,它可以解决传统神经网络收敛性弱的问题。
鉴于时间序列与信号之间固有的相似性,最近的研究尝试使用 WNN 预测短期交通流量。WNN 具有强大的非线性处理能力、自组织能力、自适应能力和学习能力,是 MTP 应用的理想架构。然而,在训练过程中,参数优化算法的选择是一个关键的考虑因素。与许多 DL 模型一样,传统的 WNN 结构使用随机梯度下降算法来学习权重。这种方法很容易陷入局部极值,导致收敛速度慢、预测精度低。为了解决智能交通系统中流量预测所面临的这些挑战,Chen 等人(2020d)提出了一种改进的粒子群优化(I-PSO)算法,以解决随机梯度下降算法收敛速度慢和局部最优的问题。与标准 WNN 或采用传统 PSO 的 WNN 相比,采用 I-PSO 的 WNN 可以达到最高精度,同时收敛速度最快。不过,作者指出,所提出的方法在非经常性网络事件中效果不佳,而且没有考虑天气等外部因素,这为今后的研究提供了很大的空间。
两篇论文中的案例研究都证明,与随机梯度下降法相比,对于基于 WNN 的 MTP 模型,其他优化方法在收敛速度和最优解可靠性方面都有所改进。然而,这两篇论文中使用的数据集记录不全,因此难以进行交叉比较,也让读者不知道哪种优化方法最适合交通预测。
Attention-based
基于注意力的深度学习方法首先出现在机器翻译中,它们被证明是克服处理长输入序列时 AE 性能下降的有效措施(Bahdanau 等人,2015)。随着智能交通系统和大数据处理的出现,交通网络正在网络内不同的地理空间传感位置生成大量时间序列数据。然而,由于现有架构的限制,许多前沿的短期 MTP 方法仅关注近期(例如每小时、每天或每周)依赖性。例如,GCN 只考虑 K 最近节点之间的关系,而 LSTM 和 GRU 在处理较长序列时会遇到梯度消失问题。基于注意力的机制是克服这些挑战的一种令人兴奋的方法,它使模型能够学习一组高影响力的特征,这些特征指示当前预测间隔的每个输入子集的相对重要性。
最近,基于注意力的方法已应用于各种MTP模型,以提高其时空特征提取能力和学习效率。吴等人。 (2020b) 提出在双向 LSTM 架构中集成注意力机制,以改进高维时间序列的 MTP。在这种方法中,注意力机制可以动态学习每个相邻时间序列对要预测的序列的相对重要性,捕获最有影响力的时空依赖性。小波分解还用于将每个时间序列分解为低频序列和噪声序列,其中低频序列代表去除随机噪声后的重要高层趋势。关注输入的低频表示使得学习高维时间序列交通数据更加高效。同时,由于注意力机制按重要性顺序动态地对时间序列进行加权,因此保持了预测准确性。
总之,由于 DL 模型能够捕捉交通数据中的随机和非线性关系,因此广泛适用于 MTP 应用。最近的研究提出了许多高效的分层特征提取方法,包括基于频谱和空间图的卷积方法、注意力机制、扩散卷积、扩张卷积和基于 RNN 的方法。每种方法在不同时间跨度下的预测准确性和计算复杂性方面的表现不相上下,在选择理想的建模方法时必须考虑这两方面的因素。在表 8 中,我们对以上讨论的模型进行了比较,以供参考。在下一小节中,我们将回顾基于深度学习的方法的局限性。
基于深度学习的方法的局限性
与经典方法相比,文献强调了利用深度学习模型进行 MTP 应用的许多优势。尽管如此,新兴的深度学习方法仍然存在一些明显的局限性:
- 计算复杂性和效率
- 最优模型的选择:对于 MTP 应用而言,理想的模型可以捕捉三个关键趋势:(1) 当前时间步节点对其邻近节点的影响(空间依赖性);(2) 未来时间步节点对自身的影响(时间相关性);(3) 邻近节点对给定节点未来状态的影响(时空相关性)(Song 等人,2020 年)。虽然适当的模型选择总是涉及特定应用和数据的考虑因素,但文献中对于多元速度或流量预测的最佳方法主要还没有定论,新技术也经常被提出。此外,除上述趋势外,理想的模型还应捕捉空间(如中心商务区和住宅区等距离较远但相关的节点之间的依赖关系)和时间(如近期、日周期、季节性)方面的短期和长期依赖关系。现有研究揭示了为实现建模目标的一个子集而优化的特定架构,但还没有一种统一的架构是最适合所有考虑因素的。此外,在确定了模型架构后,确定最佳模型参数(包括多少个隐藏层、隐藏节点的数量、所需的学习率、超参数、激活函数的选择、评估方法等)也是一项挑战,通常需要采用 "蛮力 "方法。
- 缺乏可解释性
- 有限的迁移能力,最先进的流量预测方法通常是特定于网络的,这使得它们无法在训练的特定环境之外预测流量。更具体地说,模型学习的空间关系取决于传感器网络的拓扑结构。换句话说,两个城市道路网在结构上不太可能高度相似。
深度学习的评估指标
深度学习模型可以利用各种参数来评估其交通预测准确性,最值得注意的参数汇总于表 9。这些参数通常代表计算预测准确度或误差的不同方法。在这些方法中,文献中最常用的是 MSE、MAPE 和 RMSE,它们与训练数据的大小呈负相关。具体来说,随着更多实例被添加到训练集中,模型预测误差应该会减小,从而获得更准确的预测能力。
常见的交通预测状态及相关应用
多变量交通流量和速度预测
区域流量
在实践中,区域流量预测模型对于城市规划的应用至关重要。利益相关者依靠对交通网络的高水平区域洞察力来规划未来的改进措施。例如,预测区域快速路系统入口处的交通流量有助于规划者确保车辆安全有效地进入系统(Gao 等人,2021 年)。有两项主要研究试图确定天气对区域交通流量的影响,涉及区域特定因素(如年龄、收入、道路密度、酒店密度、景点密度)(Ding 等人,2015 年,2017 年)。其中,恶劣天气对交通流量的影响尤为显著。与此同时,年龄等特定地区特征也被证明会在恶劣天气期间影响地区内的出行行为。然而,这项工作仍处于起步阶段,作者表示有必要在未来的工作中考虑更多外部因素对特定地区交通流的影响。
在此研究基础上,Liu 等人(2019a)首次提出了在区域层面预测交通拥堵的工作。所提出的方法采用 CNN 从交通数据中提取空间特征。随后,提出了一种新颖的交通状态指数(TSI)指标来衡量区域交通状况,并将交通数据分为三类。然后,在三个残差网络中使用这些指标来捕捉每小时、每天和每周的交通模式。最后,对 NN 的输出进行仔细综合,得出区域级交通流量预测结果。作者通过与五种替代方法的对比分析,验证了他们的方法,突出了其优越性。然而,随着分区网络中区域数量的增加,预测准确性也在下降,这说明今后有必要研究更深入、更复杂的 NN,以建立区域交通流模型。在未来的工作中,对具有相似属性的区域进行聚类有可能有助于克服上述在更广泛的网络中遇到的挑战。不过,这种方法在区域流量预测方面还有待探索。有趣的是,关于出租车需求预测的相关工作提出在分析中考虑不同区域之间的异质性,这可以作为未来区域流量预测工作的基础(Zhang 等人,2021d)。
网络流量
与区域层面的交通分析不同,网络流量预测的重点是对交通网络中每条道路和交叉口的交通流量进行估算和归因。随着智能交通系统的出现,网络流量模型可以实现更加主动和智能的交通管理,同时为实时路线引导和先进的旅客信息系统提供输入。然而,由于道路网络中各环节之间错综复杂的空间关系、对交叉口和交通控制设备的考虑以及车辆流量随时间变化的波动性和不确定性,网络流量预测是一个极具挑战性的问题。影响建模挑战的网络流量预测的两个主要问题是研究区域的范围和预测范围。增加预测范围或扩大研究区域以预测更多路段的交通流量需要更多的历史数据、更高的计算要求以及更复杂的建模方法。
有一些基于ARIMA和MLP的工作,但是尚不清楚这些方法是否会在大规模城市交通网络中表现良好
速度
一些研究侧重于预测交通流量,而相关方法则侧重于预测车速。实际上,交通速度预测和分析有助于动态拥堵检测和缓解应用。更具体地说,与预测(预期)速度相比,路段级别的速度信息有可能实时揭示拥堵问题,并为交通管理中心的缓解行动提供信息。
多数现有研究的范围有限,并且侧重于通过学习仅从少数特定道路收集的历史数据(例如 PEMS 数据)来预测特定道路拓扑的速度。此外,由于城市道路网络建模的复杂性增加,很少有研究关注这种网络范围内的速度预测。为了填补这一研究空白,刘等人。 (2019c) 引入了一种新颖的深度学习架构,利用时间聚类和分层注意力 (TCHA) 机制来动态捕获流量数据中潜在的时空相关性。值得注意的是,该方法阐明了目标道路与附近道路之间的大量相关性,可用于改善预测结果。
这些方法从底层交通数据中提取特定于网络的空间特征,这导致在尝试将模型推广到其他网络时性能不佳。此外,这些模型通常是在经过大量预处理的数据上进行训练的,其中异常已被规范化或删除,从而限制了它们在非经常性网络拥塞或异常事件期间的预测准确性。
出行时间预测
除了流量和速度预测之外,行程时间估计是另一个可以从基于深度学习的 MTP 方法中受益的相关交通应用。现有文献可以分为两大类:(1)路径旅行时间方法,重点是预测预定义路径或路段的旅行时间; (2) OD 行程时间估计,其中模型仅使用 OD 对和时间戳作为推理输入来推断行驶路径并输出预测。下面我们更详细地描述这两种方法。
路径行驶时间
在路径旅行时间预测状态下,预测模型将特定路线作为输入(源自 GPS 轨迹数据),并输出估计的旅行时间。准确估算给定路线的旅行时间是许多交通应用的重要考虑因素,包括路线规划(如谷歌地图)、交通监控和出租车/外卖调度(如 Uber、Grubhub、Lyft)。然而,由于交通网络中存在复杂的空间相关性、外部因素和时间依赖性,路径旅行时间估算具有挑战性。
OD旅行时间
与路径旅行时间预测状态不同,OD 旅行时间试图利用车辆轨迹数据来预测总行程旅行时间,而不需要特定车辆所经过的确切路径。在使用稀疏轨迹数据时,OD 旅行时间预测方法具有减少计算时间和消除推理误差的优点。实际上,OD 旅行时间状态与路径旅行时间一样,都具有重要的应用价值(如路线规划和交通监控)。与路径旅行时间类似,现有的研究表明,考虑交通网络中链接之间的空间依赖性可以提高预测精度(Jenelius 和 Koutsopoulos,2013 年)。其他研究也通过在模型中利用之前行程的旅行时间来学习不同出发时间的 OD 和轨迹对的编码,从而提高了预测精度(Yuan 等人,2020 年)。
值得注意的是,这些研究存在一些缺点,需要进一步研究。首先,与机会探测车辆(例如出租车)相比,没有考虑用于预测一般交通场景的出行时间的模型的普遍性。其次,现有方法假设驾驶员始终会选择出发地和目的地之间的最短距离路径。这种假设并不总是可行,因为网络条件会影响行驶时间和所选路线(有时,最短距离路径并不总是最快)
下面也是一些类似实验的表格图,是作者整理的
出行需求预测
准确的出行需求预测对实际交通应用至关重要,如调度和安排移动和交付服务(如出租车、优步、GrubHub)。然而,由于整体道路需求是分散的,且来自多个领域(如传统出租车服务需求、打车应用、服务交付和非经常性事件),因此预测出行需求具有挑战性。一般来说,出行需求预测可分为两个子类别:区域级需求预测和 OD 需求预测。在文献中,存在大量关于区域级需求预测的历史著作(Davis 等,2016;Liao 等,2018b;Yao 等,2018;Liu 等,2020d)。文献中针对区域级旅行需求预测状态的方法进展与其他状态类似:早期的工作侧重于利用统计模型(Davis 等人,2016 年),而随后的研究证明,基于 DL 的模型组合优于早期的统计方法(Liao 等人,2018b;Yao 等人,2018 年)。
开放的研究问题和未来的研究方向
第 5 节概述了文献中的各种交通预测状态及其相关应用。然而,应用开发的模型并评估其实际效益提出了开放的研究挑战。因此,现有文献一般都是在量化模型的预测准确性后得出其性能分析。换句话说,它无法评估其方法在促进实际应用(例如车辆路线)方面的现实好处。如图所示,我们重点介绍了基于深度学习的交通预测的一些开放研究领域和未来的挑战,并阐明了常见的交通预测状态和实际问题如何影响本节的未来研究方向。
联网和自动驾驶车辆的交通预测
可靠的交通预测方法将成为车联网内自动驾驶汽车应用的关键推动因素,以确保交通网络内高效的车辆路线。自动驾驶驾驶系统可以彻底改变社会流动性并带来广泛的好处,包括更好地利用现有道路基础设施、增加各种流动服务的获取、减少车辆使用对环境的负面影响以及提高安全性。自动驾驶汽车有望最终消除驾驶员的无知,转而采用动态和数据驱动的智能决策系统,使其适应周围环境条件。因此,具有减少交通拥堵潜力的新应用将成为可能,包括自适应巡航控制以及联网和自主交通控制系统(Zhong 等人,2020a)。在这项工作中,模拟分析表明,将 CAV 引入混合交通环境将极大地影响人类驾驶员的行为(例如,增加变道频率)。值得注意的是,这些基于 AV 的系统的性能将本质上依赖于可用的流量预测功能。
流量预测的联邦学习
FL 是一种新兴的隐私保护和分布式机器学习方法,有可能彻底改变物联网交通预测的未来。在 FL 中,参与的设备协同工作,在一系列回合中反复训练共享预测模型。在每一轮中,交通收集设备将只与其他设备共享学习到的参数(梯度)。具体来说,每个设备使用自己收集的数据来训练本地化模型。训练结束后,设备会定期将本地模型状态传输到参数服务器,然后使用一种算法(如联合平均法)从每个参与者的贡献中生成新的全局参数集。之后,全局参数集被分配回每个设备,该过程不断重复,直到达到收敛条件。Du 等人(2020 年)提供了有关 FL 的全面调查,供感兴趣的读者参考。
基于区块链的流量预测
现有的基于集中式机器学习的交通预测方法需要收集原始数据进行模型训练,当数据由多个利益相关者所拥有的异构物联网设备收集时,就会涉及严重的隐私暴露风险。由于区块链网络固有的不变性和去中心化特性,该技术在过去几年中使交通预测能力取得了长足进步。Hassija 等人(2020 年)提出了一种基于神经网络的智能合约,并将其部署到区块链网络上,以实现准确、高效的交通拥堵概率估计。Qi等人(2021年)提出了一种基于区块链的FL框架,以实现去中心化、可靠和安全的FL,而无需中心化的模型协调者。此外,Shahbazi 和 Byun(2021 年)提出了一个基于区块链的交通需求服务预测框架。尽管最近取得了很大进展,但区块链技术在交通预测方面尚未完全成型或标准化。例如,现有的流行区块链网络(如比特币和以太坊)需要高能耗,交易吞吐量低,并且存在存储和带宽可扩展性问题。
异常流量事件检测与缓解
非经常性异常事件,如事故、工作区、天气和特殊事件,会大大降低交通网络的容量,造成交通拥堵。据美国联邦公路管理局(FHWA)估计,约 50% 的交通网络拥堵是由非经常性事件造成的(FHWA,2021 年)。要解决非经常性拥堵并使交通网络恢复到总容量,需要交通管理中心和相关利益方(如警察和紧急服务部门)采取积极行动并进行管理。应对措施的例子包括及时与旅客沟通、动态调整现有交通路线以及清除行车道上的任何障碍物。然而,协调应对工作和向旅客通报最新情况都需要时间。因此,开发快速异常检测方法是交通界一个令人兴奋的重要研究领域。
虽然异常检测在无线网络中得到了更广泛的研究,但在交通网络中使用交通数据进行异常检测的文献却很少。在 Lu 等人(2009 年)的一项相关研究中,针对城市规模的交通网络提出了利用 KNN 的新型路径异常检测算法。作者进行了一项案例研究,得出的结论是分类准确率约为 90%。不过,该案例研究是在合成路径数据而非地面真实传感器数据上进行的,可能无法实时检测异常非经常性拥堵。最近,Hassan 等人(2019 年)提出了一种利用分辨率为 5 分钟的交通传感器数据检测智能交通系统时空异常的方法。实验确定了分类精度以及历史数据长度和训练窗口的最佳参数,最佳参数集的分类精度约为 70%,运行时间小于 1 秒。在性能分析中使用了 F1 分数来计算精度和召回率,结果表明,随着历史数据长度和滑动训练窗口大小的增加,分类精度和召回率之间存在权衡。不过,作者的数据集完全由高速公路匝道检测器组成,还不能确定这种方法是否能在不同功能类别的链接上令人满意地运行。此外,没有分析各种网络规模的性能。有必要开展进一步研究,以阐明不同网络拓扑结构和空间数据粒度对智能交通系统异常检测的影响。
现有的工作很少特别利用深度学习模型来对异常交通拥堵进行分类,从而提供了未来潜在的研究方向。在最近的工作中,戴维斯等人。 (2020)提出了一种基于端到端深度学习的交通网络异常检测方法。作者利用 LSTM 模型和基于极值理论的定制目标函数对多个数据集的异常事件进行分类,包括速度、行程时间和出租车需求数据。与现有的统计、机器学习和混合深度学习方法相比,所提出的方法在大多数数据集的分类方面具有最佳的 F1 分数。作者还概述了未来工作的其他途径,例如探索不同的目标函数、在其他数据集上测试该方法以及提出识别和量化导致异常的因素的策略。
此外,测试 DL 模型的不同组合对异常事件进行分类也很有意义。LSTM 和 GCN 模型组合在使用低分辨率时间数据序列(如 5 分钟)预测小规模和全网范围内的交通流量和速度方面取得了相当大的成功。GCN 模型可以从网络拓扑结构中提取重要的空间特征,对异常事件进行实时分类,而在线 LSTM 模型则处理最近的时间数据序列,将当前状态分类为经常性或非经常性。然而,在具有细粒度数据分辨率的大规模交通网络中,训练时间可能会很长。此外,这些模型在预测扰动(如非递归网络事件)时性能会下降。为了解决这些问题,研究一种混合实时系统,将针对非经常性事件识别和扰动下预测进行优化的模型与经常性预测模型进行动态整合,是一个令人感兴趣的未来方向。
扰动预测带来的另一个问题与解决非经常性交通拥堵的响应工作有关:有效地重新规划现有交通。实际上,重新路由需要选择较差的最优路由,而响应工作可能会暂时改变网络拓扑结构,从而阻碍利用现有 DL 模型的路由引导应用的性能。在扰动条件下进行预测所面临的挑战可部分归因于这样一个事实,即大多数文献都专注于经常性交通预测问题,并使用经过预处理的数据来训练其模型,而这些数据中的异常事件已被归一化或移除。最近,一些研究人员向研究界提出了挑战,要求我们重新思考如何处理异常数据,因为如果将异常数据与递归数据分开分析,就有可能阐明新的见解(John,2021 年)。目前,要找到包含足够密度异常事件的基准数据集还很困难。研究界亟需一个用于该应用的标准化基准数据集。在此期间,现有文献中为未来实验提供的一些潜在数据集包括双子城都会区的旅行时间、车辆占用率和交通速度数据。
混合交通运输网络中的交通预测
与汽车相关的交通拥堵是交通网络中的一个重大问题,对旅行时间的可靠性产生了不利影响。过去二十年来,交通界达成的共识是,我们无法通过建设来解决交通拥堵问题(Downs,2004 年),这强调了改善多模式出行的必要性。因此,与个人车辆基础设施相比,人们更加重视建立多模式交通系统,这导致了混合交通环境,尤其是在城市地区。交通预测在缓解混合交通网络拥堵方面最有前途的应用之一,与定向时间预测问题有关:安排完整行程。完整行程可定义为包含多种模式(如步行、自行车、地铁、汽车)的从起点到终点的行程。
在给定出发地和目的地的情况下,有效调度完整的行程包括两个基本功能:多模式、随时间变化的交通预测和最短路径算法。理想情况下,根据历史数据训练的可靠交通预测模型应为最短路径算法提供参考。关于多模式最短路径算法的文献很多,包括 Li 等人(2010 年)、Zhou 等人(2008 年)和 Bielli 等人(2006 年)。然而,这些著作对个人决策、交通时刻表和旅行时间可靠性做了许多假设。此外,它们一般只考虑了部分出行方式,并排除了步行和骑自行车等非自动出行方式。它们也没有采用 DL 模型来预测交通流量,以便在安排路径时加以考虑。尝试整合可靠的多模式交通流量和路径旅行时间 DL 模型,为与时间相关的最短路径算法提供信息,并扩展其多模式决策框架,将大有裨益。在考虑个人因素的同时安排完整行程的系统可以缓解汽车拥堵,提供更可靠、更具成本效益的出行机会,同时扩大社会的流动性。
尽管如此,由于对人类车辆、自动驾驶车辆、自行车、行人、公共交通等之间复杂而未知的相互作用和关系的了解有限,混合交通环境在文献中的体现最少。需要对混合交通环境中的交通预测进行更多研究,以提高我们对各种相互作用和时空相关性的理解。数据可用性是未来该领域研究的一个障碍,因为一些交通网络的行人设施空间数据覆盖范围有限。同时,某些模式的数据集(如行人流量)的可用性也很有限。现有的数据集一般也只包含单一模式的数据,而构建一个多模式数据集来为各种方法设定基准,将有利于未来的研究。此外,交通工程师、行为科学家和计算机科学家之间的跨学科努力很可能是必要的,以便在建模过程中考虑人类的决策过程。总之,DL 模型能否支持多模式交通预测应用目前尚不得而知,因为现有模型主要侧重于单一模式的交通预测。
交通预测中的数据挑战
-
有限的数据可访问性和合成数据,近年来,部署在交通网络中的传感器数量不断增加,导致某些地理区域收集到大量数据;然而,在实践中,为建模目的获取这些数据可能具有挑战性。这些数据大多由私营公司(如 Uber、DiDi)和政府组织(如交通管理委员会和交通部)收集,并不总是公开提供。此外,如果所需的数据存在,但由私人数据经纪人(如 INRIX)收集,则获取成本可能相当高,从而限制了一些研究人员的访问。在其他情况下,实验中使用的数据是通过与地方或联邦组织的合作或赠款提供的,公众无法随时获得这些数据,以便与其他方法进行结果比较和验证。作为数据获取问题的潜在解决方案,一些研究人员已经尝试了生成人工交通数据的方法,以扩充现有数据集或创建全新的数据集,模仿地面实况数据的分布。最近,基于 GAN 注意力的神经网络模型在这一领域大有可为,很多人尝试为未来的建模工作生成可操作的时空数据(Gao 等人,2022 年)。基于 GAN 的技术可广泛应用于改进交通预测方法,因为数据稀疏是一个令人担忧的问题。基于 GAN 的技术可广泛应用于数据稀疏性问题的交通预测方法改进。然而,近期只有少数研究文献关注交通数据估算问题
-
流量预测基准测试,未来交通预测研究的一个主要需求是建立一个全面的基准数据集数据库,以便对所提出的方法进行比较分析。随着每年可获得的交通数据越来越多,文献中用于分析建议方法性能的数据集也变得多种多样。例如,表 4 列出了文献中用于交通预测 DL 模型的 40 个最常用的大规模地面实况数据集。值得注意的是,现有案例研究中使用的数据集之间存在很大差异,因为任何预测模型的性能不仅取决于模型架构,还取决于基础数据特征(如分布、密度、质量、特征)。因此,对在不同数据集上训练和评估的方法的结果进行交叉比较,并不能为寻求在实际应用中实施 DL 模型的现实世界利益相关者提供多少可操作的见解。我们相信,文献中交通数据集的进一步标准化将为现有文献中大量交通预测方法的实际性能权衡提供新的见解。最近,一些研究人员试图通过提供开源平台(如 LibCity,Wang 等人,2021b)来访问不同的统一交通数据集,从而为实现标准化铺平道路,这为未来标准化领域的工作奠定了基础。
-
外部数据限制,如表 6 所示,许多研究都证明了在预测模型中考虑外部数据特征(如气象数据、大流行病数据、事件数据、社交媒体数据和工作区数据)的好处。然而,由于将外部数据与地面交通数据进行综合的挑战,基于外部数据的交通预测文献在一定程度上受到了限制。另一份调查报告(Tedjopurnomo 等人,2020 年)也讨论了这一问题,作者建议首先建立一个具有足够时空覆盖范围和数据密度的地面真实交通数据基准数据集。之后,如有需要,可将交通数据与补充数据串联起来。最后,可以对每个时间数据实例进行扩充,纳入必要的地理外部数据,如天气和事故信息。这样,一个综合基准数据集就可以从可能互不关联的时空数据集和外部数据集中建立起来。我们相信,这是建立外部基准数据集的一种合理而实用的方法。这种格式的基准数据集将极大地帮助未来的研究人员进行比较分析,从而阐明交通数据和外部数据之间的基本时空关系。
-
多源数据,我们将多源数据定义为综合数据集,它结合了多种类型的地面交通数据(如流量和速度数据)以及外部数据源(如天气、社交媒体和事件数据)。现有的大多数交通预测研究一般都侧重于对其提出的模型(如速度数据、流量数据、行程数据)使用单一数据集进行实验。因此,其他相关因素对整体预测结果的影响并不总是得到深入研究。此外,不同数据序列之间的非线性相互作用通常也未被考虑,而是作为单独的特征处理。未来,在尝试预测交通状况时,我们应考虑调整传统方法,融合来自多个来源和不同数据集的信息,以提高我们对各种交通数据类型之间潜在关联性的理解。然而,如何找到有效的方法,将不同来源的大量原始数据融合为一个全面的总体模型,成为一个具有挑战性的开放式研究课题。此外,高维特征的训练计算成本越来越高,因此有必要确定特征的重要性,并只提取对应用目标最有利的特征。基于注意力的 DL 方法最近在量化各种特征的相关性方面取得了成功。SAE DL 模型还可以通过分层提取最重要的趋势并丢弃其他信息,帮助减少特征集较大的多种应用(如全网流量预测)中的特征数量。GCN 网络在将流量数据转化为基于图的表示法方面也取得了一些成功,这种表示法能够捕捉和编码节点和链路级别的流量网络内的空间关系。我们相信,对这些方法的进一步研究将是提高交通预测模型预测性能的基础。
-
数据采集区域,在训练数据驱动的交通预测模型时,各种交通网络的独特拓扑结构是首要考虑因素。在用于全网交通预测等应用的前沿方法中,GCN 和其他基于图的方法被用来捕捉交通网络的空间属性,并将其转化为时间预测模型(如 LSTM)的可操作特征。因此,前沿方法在预测其所训练的网络内的交通流量时表现出色,但在尝试预测网络外的交通流量时往往会失败。理论上,我们可以为交通网络的每个子集训练专门的预测模型,但这并不是最有效的方法。在实践中,我们试图回答这些现有模型是否能适应其他交通网络,或者我们是否能利用现有模型加快更新模型的训练。