【论文笔记】通过强化学习优化交通灯管理：交通状态无关智能体与具有当前 V2I 交通状态知识的整体智能体

请我喝好果汁

已于 2024-01-14 19:32:59 修改

阅读量1.4k

点赞数 12

分类专栏：深度强化学习+信号灯控制交通相关论文文章标签：论文阅读学习笔记

于 2023-12-26 15:58:57 首次发布

本文链接：https://blog.csdn.net/wjt_0167/article/details/135056470

版权

交通相关论文同时被 2 个专栏收录

4 篇文章

订阅专栏

深度强化学习+信号灯控制

3 篇文章

订阅专栏

博客声明：本文仅为个人论文阅读笔记，大部分原文对照的中文为翻译而来，只对其中错误明显的部分作了修改。其他一些个人理解不到位或有误的地方也尽请见谅。

标题原文： Optimised Traffic Light Management Through Reinforcement Learning: Traffic State Agnostic Agent vs. Holistic Agent With Current V2I Traffic State Knowledge
- Traffic state agnostic agent： 状态无关智能体
- Holistic Agent with current V2I traffc state knowledge： 带有当前V2I交通状态知识的整体智能体，简称“整体智能体”
论文来源： IEEE Open Journal of Intelligent Transportation Systems
论文DOI： 10.1109/OJITS.2020.3027518
关键词： Deep reinforcement learning(DRL), intelligent transportation system(ITS), intersection control, vehicle-to-infrastructure communication(V2I)
网络模型结构： SAC（Soft Actor-Critic）
数据集：模拟交通路网，真实世界路网（西班牙，巴塞罗那）
总结：本文内容相对基础，创新性不够强，且缺少代码

文章目录

0 摘要
1 Introduction_介绍
- A.Motivation_动机
- B.Contributions and structure of this article_本文的结构和贡献
2 Background_背景
3 Related work_相关工作
4 DRL for traffic control_基于深度强化学习的交通控制
5 Performance comparison_性能对比
6 Discussion_讨论
7 Outlook_展望

0 摘要

概括：

本文将当前交通灯控制分为两类：是否利用当前交通状态知识（接近十字路口的车辆位置和速度），针对这一点进行了详细实验比较
利用当前交通状态知识的整体系统在交通信号控制问题下，大幅提高了平均车速和流量，同时在多个指标取得优势

交通灯控制分为两大类：不利用当前交通状态知识（例如接近十字路口的车辆的位置和速度）的无关系统，以及利用当前交通状态知识的整体系统。新兴的第五代 (5G) 无线网络使车辆到基础设施 (V2I) 通信能够可靠、快速地收集当前的交通状态。然而，据我们所知，没有对有无当前交通状态信息的优化交通灯管理进行详细比较。这项研究通过设计具有代表性的深度强化学习（DRL）代理来填补文献中的这一空白，该代理可以在没有或有当前交通状态信息的情况下学习多个交通灯的控制。我们的状态无关代理主要考虑所有交通灯的当前阶段以及自上次更改以来的过期时间。此外，我们的整体代理还会考虑接近十字路口的车辆的位置和速度。我们比较了模拟交通场景和包括来自西班牙巴塞罗那的道路网络下的状态无关代理和整体代理。我们发现，整体系统大幅提高了平均车辆速度和流量，同时减少了二氧化碳排放、平均等待和出行时间以及驾驶员压力指标。

1 Introduction_介绍

概括：

A.动机： 交通拥堵在城市发展中产生高昂的经济成本、通勤时间延误、大气污染等社会问题。智能交通灯系统相对其他解决方案更有效，相对便宜和易于实施；如今快速的无线传输技术可以提供更详细的交通状态信息来辅助算法做出更优决策；深度强化学习技术在复杂的控制问题决策方面拥有优势。
B.本文结构和贡献：
- 对是否利用当前状态信息的智能体进行了详细的实验比较；
- 对考虑单一指标或多个指标的复合奖励函数进行了比较；
- 对不同的路网进行了比较，包括模拟路网、真实路网等

A.Motivation_动机

有效的运输系统是经济竞争力和环境可持续性的关键要求。交通管理效率低下导致交通拥堵，造成高成本和通勤人员延误。在欧盟(EU)，据估计，2017年拥堵成本占年度GDP的1%。2019年，美国的交通拥堵成本达880亿美元(占GDP的0.41%)。特别是在人口密集的大城市，通勤者每年花在交通堵塞上的时间高达200小时。除了经济负担外，由于拥堵而增加的排放还会产生不良的环境和社会影响[3]，[4]。缓解拥堵对交通当局来说是至关重要的，已经提出了不同的解决策略，其中许多需要昂贵和耗时的道路网络建设工作。特别是在人口密集的市中心，这些措施往往受到现有基础设施的阻碍。因此，一个引人注目的方法是通过智能交通灯系统[5]-[9]更有效地控制交通，它不需要扩展道路基础设施，相对便宜和易于实施。
·
近年来，快速可靠的无线技术引起了人们对车辆基础设施(V2I)通信及其应用的越来越多的兴趣。目前和未来的标准，如IEEE 802.11p、LTE-V和5G，允许单个车辆和交通基础设施之间的信息交换，最终向基础设施提供交通系统当前状态的整体知识。理论上，这将使高度知情的控制决策成为可能，并有助于缓解拥堵。然而，传统的交通控制模式不适合利用密集的状态信息流来做出更好的控制决策。因此，在考虑详细状态信息的情况下，需要新的算法来应对交通控制的惊人复杂性。
·
在过去的十年中，不断增加的计算能力和大数据集使深度神经网络(dnn)的有效训练成为可能，并导致了机器学习(ML)领域的出现。一些最令人印象深刻的ML成就源于强化学习(RL)子领域，该领域用基于学习的方法解决复杂的控制问题。特别是，强化学习和深度神经网络的结合，被称为深度强化学习(DRL)，证明能够解决许多复杂的控制问题，从雅达利街机游戏[10]和古老的围棋游戏[11]到机器人控制[12]。

B.Contributions and structure of this article_本文的结构和贡献

这项研究的主要贡献是提供了一个详细的比较，一个具有代表性的最先进的、与当前交通状态无关的DRL智能体，一个具有代表性的最先进的、拥有当前交通状态知识的整体DRL智能体。我们还比较了一个只考虑平均车速的奖励函数和一个考虑平均车速、车流量、CO2排放和驾驶员压力水平加权组合的复合奖励函数。重要的是，我们对具有多个交叉路口的公路网进行了这些比较，包括一个主干道和几个支路的公路网，一个具有3×3交叉路口的公路网，以及西班牙巴塞罗那的一组公路网。交通状态包括接近各个交叉路口的车辆的位置和速度，以及各道路上的车辆数量，通过5G V2I通信可以很容易地实时收集到这些信息。
·
我们发现，与状态无关智能体相比，整体智能体获得了显著更高的平均车辆速度和流速，以及显著更短的通过道路网络的平均旅行时间。此外，整体智能体显著减少了交通灯的平均等待时间。此外，整体智能体减少二氧化碳排放量和司机的压力指标。通常，整体智能体的性能改进在相对较低的交通需求和复杂的道路网络中更为显著。对于单个交叉路口的高交通需求，与状态无关智能体相比，整体智能体仅略微提高了平均车辆速度。然而，如果在一个交叉路口有低交通流量，或者考虑多个交叉路口(对于任何交通需求)，那么整体的智能体表现明显好于状态无关的智能体。
·
本文的结构如下。在第二节中，我们回顾了问题的背景。在第三节中，我们讨论了相关的工作。在第四部分，我们介绍了具有代表性的状态无关智能体和整体DRL智能体的设计。在第五部分中，我们描述了模拟实验的设置以及详细的状态无关智能体与整体DRL智能体的比较结果。最后，在第六章和第七章中，总结了研究成果，并提出了进一步的研究方向。

2 Background_背景

本节介绍相关领域的相关背景，即交叉路口控制、V2I通信和RL。

概括：

A.交叉口控制： 介绍交叉口相关概念和相位方案
B.车辆与基础设施间的通信： 介绍V2I通信技术的性能优势，与其他技术相结合实现复杂场景的实时控制
C.强化学习： 介绍强化学习基本框架、当前流行算法和本文要使用的SAC算法

A.Intersection control_交叉口控制

传统上，一个交叉路口的交通灯会依次经过不同的阶段，在这些阶段中，不同的交通流会按照预先定义的各个阶段的顺序被授予路权，这个阶段被称为[5]-[9]相位方案。流被定义为从一个途径到交叉路口[13]出口的允许轨迹。如果两种或两种以上的交通工具能在不干扰的情况下通过交叉路口，则称为兼容流;否则，它们被称为敌对的[14]。图1显示了两种流行的相位方案，它们都只包含兼容的流。
·
·
相位持续时间既可以利用历史交通统计数据提前计算，也可以根据道路路面感应回路传感器测量的当前交通状态进行调整。由于选择最优相位时间的重要性和交通系统受严格的实时约束，对当前交通状态的利用往往会导致次优相位持续时间。此外，在密集的交通网络中，一个交通灯的信号会强烈地影响其周围交通灯的信号效果。因此，对于最优控制策略，我们不能仅仅优化孤立的交叉路口，还需要综合考虑多个交叉路口的参数，找到一个协调的解[14]。然而，优化问题的复杂性随着考虑的交通灯数量的增加而呈指数增长。因此，大多数现有的交通信号灯都是单独优化的，或与附近的几个交叉路口协调优化的。因此，传统的控制方法可以大致分为两个轴:对当前交通状况的响应性和各个交叉路口之间的协调。图2显示了一些传统的控制算法，沿着两个轴分类。为保证安全运行，各相不能任意改变。相反，交通灯必须经历一个黄灯期，这允许那些失去通行路权的车流的车辆进行刹车，和一个全红期，在这期间，交叉路口可以被完全清除，因为没有更多的车辆被允许进入。黄灯和全红灯周期的长度取决于方法的速度限制和交叉路口的尺寸，通常不是交通优化算法[22]的要优化的对象参数。
·

B.Vehicle to infrastructure communication_车辆与基础设施间的通信

车辆到基础设施（V2I）通信技术可以实现单辆车辆和交通基础设施之间的双向信息交换[23]-[26]。交通系统的高安全相关性和严格的实时约束需要可靠的高性能通信接口，在高移动性和车辆密度的条件下提供极低的延迟和高吞吐量。 IEEE 802.11p Wi-Fi 标准 [27] 是为智能交通系统 [28] 中的本地无线访问而引入的。 IEEE 802.11p Wi-Fi 可在 300 m 左右的相对较短的传输范围内实现 6 Mbps 至 27 Mbps 的数据速率 [23]。不幸的是，它存在可扩展性问题、无限制的延迟以及缺乏确定性的服务质量（QoS）保证[29]。
·
蜂窝技术提供了一种可以克服 IEEE 802.11p Wi-Fi 标准限制的替代方案。 2016年，第三代合作伙伴项目（3GPP）发布了Release 14的第一个版本，该版本支持V2X通信[30]。该标准称为 LTE-V，相对 IEEE 802.11p 提供更高的可靠性。在没有蜂窝连接的情况下（例如在农村地区），LTE-V 可以使用 PC5 sidelink4 接口进行直接设备到设备通信，而无需基站。 3GPP Release 15 采用了使用新兴 5G 移动互联网 [30] 的 V2X，在各个方面对 LTE-V 进行了改进。 5G 预计将实现短至 1 毫秒的延迟和高达 10 Gbit/s 的吞吐量，最多可支持 1000 亿个独立设备，并且容量将大幅增加 [31]-[34]。因此，5G 与新兴的低延迟多接入边缘计算 [35]-[37] 相结合，似乎非常适合在 V2X 场景中实现复杂的实时控制决策。

C.Reinforcement learning_强化学习

强化学习(RL)框架处理自主的代理，导航和探索它们的环境。环境被定义为所谓的马尔可夫决策过程(MDPs)。智能体与环境的交互以离散时间步执行。在每个时间步t中，智能体观察其环境的状态st，并对其环境采取动作at来影响其环境，从而产生一个新的状态st+1。从状态到动作的映射称为智能体的策略(在|st处)，它可能是确定的，也可能是随机的。智能体的行为是通过一些数值奖励信号rt来评估的。智能体因此努力使未来奖励的加权和gt =∞i=0 i·rt+i+1最大化，称为(折现)收益。折现因子∈[0,1)定义了智能体对近期回报的偏好程度，而不是对遥远未来的偏好程度。
·
可以说，最流行的RL算法是Q-Learning[38]。使用Q-Learning，智能体估计它将获得的回报，如果它当前处于某个特定的状态s，执行某个动作a，并且总是执行之后q值最高的动作。这种估计被称为状态-动作元组(s, a)的动作值或Q值Q(s, a)。如果所有的Q值都已知，选择最优决策就像采取最大值一样简单。然而，由于正确的q值通常是未知的，所以它们的估计在每次时间步后都会进行调整，以更好地解释获得的奖励[38]。
·
对于有限数量的离散状态和动作，q值可以表示为一个表。另一方面，对于连续状态空间，我们需要函数逼近器，例如深度神经网络(DNNs)，来表示q值。这种RL技术和dnn用于函数逼近的组合称为深度强化学习(DRL)。例如，在DQL (Deep-Q-Learning)算法中，DNN从连续状态空间映射到一组动作[10]的q值。对于DQL算法，必须预测所有可用操作的q值。这阻止了非常大或连续的行动空间。另一类算法是所谓的策略梯度(PG)方法，它支持对连续行动空间的利用。目前流行的PG算法有A3C[39]和DDPG[40]。
·
在软参与者-批评家(SAC)算法[41]中，一个DNN -称为批评家-被训练来预测状态-动作元组的q值(如[10])。第二个dnn称为行动者，然后用于在可用动作的预测q值上近似玻尔兹曼分布。因此，在推理时，从参与者计算的分布中采样一个动作就足够了。为了使用反向传播算法[42]来训练行动者，SAC使用了采样操作[43]的可微重参数化。

3 Related work_相关工作

概括：

介绍了交通mdp；交通灯的动作空间；当前研究使用不同的RL方法解决各自的交通控制mdp；不同的奖励函数；本研究与最近研究的区别

交通控制问题的高度相关性和RL解决复杂控制问题的证明能力导致了广泛的出版物结合这两个主题[44]。联网自动车辆的出现，导致了一个相对较新的关于联网自动车辆交通控制的研究领域，如[45]-[50]。我们的研究重点是传统(非自动化)车辆。
·
交通mdp（马尔可夫决策过程）的实现方法各不相同，包括利用状态、行动空间、奖励函数和RL学习算法。MDPs在利用状态空间方面有很大的不同，状态空间定义了智能体可以根据其控制决策的知识。一些模型对当前交通状态的信息假设甚少。例如，[13]使用来自路面感应回路传感器的信息，因此可以很容易地在现代交通系统中实现。其他模型则假设对单个车辆的位置有复杂的了解，例如，可以通过V2I通信接口推断出这些信息。然而，目前的研究还没有对不同状态空间下的交通灯系统性能进行比较。据我们所知，我们目前的研究是第一个详细量化V2I通信对基于RL的交通灯控制的好处的研究。特别地，我们的研究通过对整体智能体和状态无关智能体使用完全相同的RL算法来隔离V2I通信的性能影响(这两个代理仅在它们的状态空间中不同)。
·
没有一种独特的方法来定义控制交通灯的动作空间。然而，动作空间的框架会强烈影响收敛速度。例如，在[51]中，智能体可以分配相位的相对持续时间，同时预定义相位序列和周期的完整长度。这种狭窄的框架强烈限制了系统可以表现出的行为范围，但由于策略的搜索空间相对较小，可能会加快收敛速度。在[52]中(以及类似的[53]、[54]变体中)，智能体在每个时间步长中决定下一步显示哪个相位。这导致了更广泛的行为(特别是当时间步之间的间隔很短时)，但可能会缓慢收敛。
·
现有的研究也使用了不同的RL方法来解决各自的交通控制MDP。除了使用的算法不同之外，它们在使用dnn作为函数逼近器(DRL)和应用多智能体强化学习(MARL)方面的差异尤其明显。MARL方法通过将任务划分到多个代理来处理多个交叉路口同时控制的高度复杂性，例如，每个交叉路口都由一个单独的学习智能体控制。在一个简单的设置中，agent对交叉路口的局部奖励函数进行优化，例如[55]。在更复杂的环境中，高阶协调算法，如坐标图和博弈论方法，如max-plus，协调多个agent的动作，如[56]。在MARL研究[13]，[52]，[55]，[57]-[61]的基础上，最近的研究进一步大大提高了MARL计算和决策策略，见[62]-[67]。RL控制应用的一般相关计算框架已在多目标决策建模[68]和混合模糊与RL控制[69]中进行了探索。
·
不同使用的奖励函数封装了代理的不同目标。流行的目标是速度的最大化，如[51]，或交叉路口的吞吐量，如[13]，和延迟的最小化，如[70]-[72]。在MARL方法中，一个重要的区别是局部奖励函数和全局奖励函数。在局部方法中，每个智能体都在自己的交叉路口优化性能。相反，全局奖励函数包括来自所有交叉路口的度量，因此每个智能体都关心整个网络的性能。这鼓励了智能体之间的合作，特别是当一个智能体的良好性能降低了附近代理商的性能时。例如，使用局部奖励函数的智能体可以将车辆发送到已经拥挤不堪的邻近交叉路口，从而最小化其局部延迟，但会导致全局性能恶化。
·
从概念上讲，我们的研究与最近的研究[73]密切相关，即在单个交叉路口使用不同比例的V2I使能车辆(从0到100%)进行交通信号控制。(相关研究[74]考察了探测车辆对交通状态的估计。)作为对[73]的补充，我们研究了通过V2I通信收集的交通状态信息对由多个交叉路口组成的道路网络的性能影响。本质上，我们考虑的极端情况是[73]中0%的v2i使能车辆(大致相当于我们的状态无关智能体)和[73]中100%的v2i使能车辆(大致相当于我们的整体智能体)。我们严格地评估了这两个极端的案例，适用于各种各样的交叉道路网络，从主干道和支线到西班牙巴塞罗那的15个交叉路口的公路网。
·
为了完整起见，我们注意到，基于非车道的异构交通场景中的V2I控制已经在[75]中进行了研究;相反，我们考虑基于车道的交通。公交车停留时间控制已在[76]中进行了研究;我们专注于传统的汽车交通。

4 DRL for traffic control_基于深度强化学习的交通控制

理论上，交通系统通过V2I通信链路获取单个车辆详细信息的能力应该能够更好地控制决策，并在保持高安全标准的同时缓解交通网络的拥堵。然而，在实践中，将这种大数据流提炼成明智的控制决策是非常复杂的，传统的交通控制算法不适合这样做。DRL为海量实时交通数据带来的挑战提供了一种可能的解决方案。它从数据中学习复杂问题的近似解决方案的能力已被证实，可以在了解详细的状态信息的情况下实现智能交通控制(见第三节)。本节将介绍我们在本研究中开发的MDP，包括状态、动作和奖励，以及用于学习交通环境控制的DRL算法。

概括：

A.状态空间：
- 状态无关代理：无法与交通网络中的车辆进行通信，仅限于基础设施内部信息
- 整体代理：通过V2I通信接口获取通信信息和环境的进一步信息，利用许多参数更好地做出控制决策
B.动作空间： 本文对信号灯进行控制使用的具体相位设置：当前相位显示时间超出既定时间选择其他相位；限制了绿色相位持续时间范围，固定黄色和全红色周期持续时间；限制信号灯相位变化周期，绿→黄→全红
C.奖励函数： 实验了两种奖励函数：1.所有车辆的平均速度；2.平均速度、平均流量、碳排放和司机压力水平组成的复合奖励函数
D.学习算法： 本文采用SAC算法，并对其中的部分模块进行了优化修改

A.State space_状态空间

本研究的范围是评估为交通基础设施提供详细的交通状态信息的效益。RL智能体的状态空间定义了其决策所依据的知识。因此，我们用两种不同的状态空间来比较两个代理的性能:一种状态空间与当前交通状况无关，另一种状态空间能够通过V2I通信观察交通网络中的单个车辆，从而获得当前交通状态的整体视图。表1总结了这两个代理的状态空间中包含的特性。

1) Agonostic agent_状态无关代理

由于状态无关的智能体无法在交通网络中与车辆通信，状态仅限于交通基础设施内部的信息。最重要的是，这包括当前由交通灯显示的信号。每个交叉路口都有许多允许的相位，这些相位可以通过一个唯一的相位标识符来标识。为了进一步描述交叉路口的当前信号，周期ID显示交通灯当前显示的是选定的相位、各自的黄色相位还是全红相位。此外，智能体具有自最后一个相位变化以来的时间和每个相位的轨迹，当各自的相位被激活时，该轨迹会增加，而当该相位未被激活时，该轨迹会缓慢衰减。这就像一种记忆，让智能体对激活阶段的近期历史有一些概念。请注意，如果智能体使用带有内存的模型(例如递归神经网络[77])，跟踪就会被删除。
·
我们注意到，我们的状态无关智能体不直接利用车道上的环形传感器。这是因为目前大多数部署的交通控制算法使用环路传感器，而不是对单个车辆作出反应，而是计算交通统计数据，然后作为交通信号的基础。因为我们为这种特殊需求训练了状态无关的智能体，所以我们的状态无关的智能体隐式地使用了这些流量统计数据。

2) Holistic agent_整体代理

通过V2I通信接口，整个智能体接收关于通信网状态的详细信息。除了状态无关智能体的特征外，整体智能体因此观察来自环境的进一步信息。智能交通系统可以利用许多参数来做出更好的控制决策。例如，有了关于司机疲劳程度的信息，基础设施可以增加黄色时段的持续时间，或者警告附近的司机。然而，在本研究中，我们将交通系统的观测限制在接近车辆的位置和速度上。特别地，我们观察所有驶近的车辆，并在状态空间的单个条目中表示每条道路上驶近车辆的固定数量(10辆，见表2)的位置和速度(其余仅通过汇总统计表示，见下)。该位置由当前道路的唯一ID、当前车道以及车辆与下一个红绿灯的距离进行编码;速度是当前道路上的绝对速度。由于传统的DNNs需要一个固定长度的输入向量，因此智能体可以观察每个交叉路口固定数量车辆的准确位置和速度。如果有更多的车辆接近一个交叉路口，基础设施只能观察离交叉路口最近的车辆。如果有更少的车辆，矢量是零填充。考虑到没有单独观察到的车辆，状态向量还表征了每条道路上接近车辆的数量和它们的平均速度。

B.Action space_动作空间

我们让智能体在每个时间步(i)中决定要显示的相位和(ii)显示持续时间。时间步长定义为1秒的模拟时间。如果当前相位的显示时间已经超过了所选的持续时间(在显示给定相位的任何决策时间步长)，那么接下来将显示新选择的(不同的)相位。这允许广泛的不同行为，同时导致比我们测试的其他动作空间更快的收敛。我们将绿色相位持续时间(绿色周期)限制在5到100秒之间，并将黄色和全红色周期设置为固定值，见表2。所有可用的相位选项都只包含兼容的流，这使得智能体的操作本质上是安全的。当然，在显示新的相位之前，交通灯必须经过黄色相位和全红色相位，以符合安全规定。对于两个受控交通灯的场景，图3左下方显示了可以从其中采样动作的示例集。

C.Reward function_奖励函数

奖励函数定义了智能体努力实现的目标。在交通管理中，目标可能是多方面的:安全、效率、环境可持续性、舒适度和公平性只是一些可能的优化措施。需要注意的是，有些功能比其他功能更容易量化，因此能够创造出更好的奖励函数。
·
在本研究中，我们主要使用所有车辆的平均速度作为奖励函数，因为这是一个流行的衡量交通网络的有效性。注意，状态无关的智能体无法知道网络中车辆的平均速度，因为它没有V2I通信接口。因此，这个状态无关的系统在部署到现实世界之前，必须在模拟中进行训练，或者外部的平均速度估计器可以提供一个近似的奖励功能，以便从实际系统中学习。在第五节的模拟实验中，未知智能体被赋予了实际速度，从而模拟了一个外部估计量。另一方面，整体智能体可以很容易地计算通过V2I接口传输的车辆的平均速度，因此可以在部署的系统上进行训练。
·
我们还实验了一个复合奖励函数，该函数由平均速度、平均流量(移动车辆的百分比)、交通网络中的CO2排放和司机的压力水平(根据[60]，这是最近历史上司机等待时间的二次函数)组成。这四个因素的权重相等，形成一个复合奖励函数。在一个场景中，我们研究了不同的奖励功能对结果政策的影响。

D.Learning algorithm_学习算法

我们采用具有混合（离散和连续）动作空间的 SAC 算法，我们发现该算法可以加速 RL 代理学习流量控制策略的收敛速度。由于原始出版物 [41] 打算使用 SAC 算法来学习纯粹的连续控制策略，因此我们必须对其进行调整，以便能够应对我们的混合连续离散动作空间。正如[78]中所建议的，我们使用Gumbel-softmax分布[79]、[80]来重新参数化离散动作选择。为了提供更好的梯度并稳定学习，我们使用 n 步引导（n = 5）来训练批评者，并让它预测可能的 Q 值的分布，而不是单个 Q 值，如[81]中提出的。由于[81]中描述的离散分布要求预测的 Q 值有界，因此我们将所有奖励缩放到范围 [0, 1] 内。我们尝试了对原始 SAC 的其他修改，例如权重衰减 [82]、目标策略平滑 [83] 和优先经验重放 [84]；然而，这些修改并没有提高学习成绩。由于使用的交通模拟器相当慢，我们选择将经验收集和学习解耦。虽然一个进程可以从重播缓冲区中的经验中学习，但可以并行模拟多个环境以收集新经验并将其添加到缓冲区中。图 3 显示了两个相连交叉路口的简单交通网络的代理与环境交互循环。请注意，我们没有显示经常复制三个 DNN 权重的目标网络，也没有显示用于存储过去经验的重播缓冲区。
·
我们使用 Adam 优化器 [85] 训练所有 DNN。这两个批评者网络是使用固定的学习率来学习的。与这两个批评者相反，我们慢慢地调整参与者网络的学习率，以便近似约束之前和之后概率策略的 D2 度量（从旧策略到新策略的 KL 散度之和，反之亦然）在每个学习步骤达到某个预定义值之后。这减轻了过度政策变化的风险，过度政策变化可能导致性能突然显着下降，称为政策破坏。 ADAM 优化器的二阶梯度近似与学习率的事后调整相结合以匹配所需的 KL 散度，可以被视为信赖域方法的非常粗略的近似，例如 TRPO [86]。完整的算法如附录所示。
·
本研究侧重于交通工程方面，而不是强化学习方面。因此，我们报告的是训练系统的结果(而不是RL智能体的训练过程)。我们设想我们的代理是在模拟中训练的，而不是在真实世界中。我们在模拟中训练所有的代理，直到每轮的总共未折扣奖励，以及q函数和策略平台的两个损失函数。

5 Performance comparison_性能对比

概括：

介绍了实验环境，其中的路由算法、跟车及换道模型、碳排放算法和使用的编程语言等；仿真细节、车辆产生分布、V2I通信接口、路网的设计细节等
A.单交叉路口： 在单交叉口场景下，状态无关智能体可以找到传统优化方法同样的最优解（扩展多交叉口则不可行）；整体智能体在低交通需求方面明显优于状态无关智能体，高需求的情况下则优势较弱；整体智能体的鲁棒性强，可以扩展到不同的流量条件下，适应不同的流量需求。
B.主干道： 在四个相连的交叉路口组成的主干道场景中，整体智能体的性能表现明显优于状态无关智能体，车辆的平均速度的增益显著；且整体智能体管控下可以很好的平衡主干道和支路的等待时间，状态无关智能体则保证主干道的交通流畅，支路的等待时间较长。
C.突然流入： 在交通流量短时间内大幅变化的情况下，整体智能体对环境的观察更加敏锐，能够更快地将路网内车辆的平均速度回复到流量剧增之前
D.复合奖励函数： 对两种奖励函数，1.仅考虑车辆平混速度，2.平均速度+流量+碳排放量+司机压力水平的加权组合，进行了实验。后者在所有指标上均有所提升，平均速度的变化差异微小，同时减少了所有指标方差，性能表现更加稳定。
- 推荐对相互冲突的指标进行联合优化（如速度和行人安全），迫使智能体权衡不同的指标。
E.以城中心街区为例： 使用真实世界对应的路网进行了实验，整体智能体在所有流量需求和所有指标下均优于状态无关智能体

我们将整体智能体(对应于通过V2I接口的当前流量状态的可用性)的性能与状态无关的智能体(对应于当前流量状态的缺失，即V2I接口的缺失)进行了比较。我们通过在SUMO[87]开源交通仿真环境下的仿真实验进行性能对比。SUMO是一种微观模拟器，这意味着单个车辆的动力学是明确建模的。这是必要的，因为我们希望整体智能体来观察个别车辆的位置和速度。我们采用Dijkstra的路由算法，将边缘权值设置为各条道路行驶时间的移动平均，智能驾驶员(IDM)跟车[88]和LC2013换道模型[89]。我们采用默认的SUMO排放模型HBEFA3，模拟汽油驱动的欧标4乘用车[90]，计算CO2排放。为了与SUMO模拟相衔接，我们使用了Flow[91]。Flow框架可以用来模拟交通系统领域的各种RL问题，从交通基础设施的学习信号到单个车辆的控制。在RL实现中，我们使用ptan[92]和PyTorch[93]来实现和训练神经网络。
·
由于本研究中我们想要控制交通灯，所以我们没有利用RL控制车辆的可能性。相反，所有车辆使用SUMO的默认控制器路由，跟车和换道，如上所述。仿真可以通过仿真交通系统边界上的所有道路进出仿真系统。每个入口和出口点的组合(除了具有相同入口和出口道路的组合)都被分配到一个泊松过程，该过程根据预定义的刷出率生成新车辆。所有生成率的总和，以车辆每小时(vehs/h)来衡量，被称为需求或交通量。我们承认，泊松分布到达车辆的假设是一个很强的假设，因为在真实的交通网络中，由于相邻交通灯的信号，车辆会以波的形式到达。然而，泊松分布车辆到达是交通灯控制研究中常见的假设，如[8]，[44]，[73]。
·
我们没有显式地对V2I通信通道建模。在一个更复杂的方法中，我们可以包括一个网络模拟器来解释信息传输的动态。然而，现代通信技术的延迟(以毫秒为单位)与交通灯系统的时间尺度相比很小，交通灯相位决策的时间分辨率为1秒。因此，一个复杂的通信模型不会影响交通模拟的结果。
·
在前四个实验中，我们考虑一种通用的道路基础设施，如图4所示。我们使用南北和东西道路，每个方向有三个车道，最左边的车道只允许左转，中间的车道只允许直道，最右边的车道允许直道和右转。在每个交叉路口，智能体可以从图1中的八个相位选项中进行选择。在第一个实验(Section V-A)中，只控制一个交叉路口;而在接下来的两个实验(V-B和V-C段)中，我们考虑了一条由四个相连的交叉路口组成的主干道。在第四个实验(Section V-D)中，我们研究了一个由三个交叉路口组成的网格网络(见图4)。在最后一个实验(Section V-E)中，我们模拟了西班牙巴塞罗那的l’antiga Esquerra de l’eixample 地区;其中，可用的相位选择对应于交通灯的实际相位。这些数据是从OpenStreetMap.org中提取的。图5为模拟路网和模拟区域在巴塞罗那城市地图上的位置。交通环境参数汇总如表2所示。
·

·
在机器学习特别是深度强化学习中，通常很难评估当前策略的性能，并验证算法已收敛到一个良好的解决方案，因为最佳性能通常是未知的。更长的训练时间，不同的超参数选择，或其他初始权值的神经网络可能会导致更好的解决方案。对于我们在这里展示的结果，每个学习过程都运行，直到各自策略的性能在相当长的一段时间内不再发生变化。为了降低找到较差解决方案的风险，我们使用一组变化的超参数多次运行每个学习过程。表3总结了RL系统参数的值。
·

A.Single intersection_单交叉路口

在第一个实验中，我们测试了单个孤立交叉路口的初始设置。我们让泊松过程的生成速率相等，这意味着所有四种方法的平均到达速率相等，每一辆生成的车辆在交叉路口左转、直行或右转的概率都相等。图6显示了不同流量下的状态无关智能体和整体智能体车辆的平均速度。我们还绘制了一个优化的固定循环策略的结果，该策略以循环方式为不同的传入车道提供了正确的通行权。最优相位持续时间和最佳相位周期(图1中的两个周期)是用蛮力方法推导出来的，这种方法对于单个孤立的交叉路口是可行的，但是对于后面几节所研究的更大的道路网络则是禁止的。
·
图6中的单交叉路口评价表明，状态无关的智能体可以找到与最优固定周期策略同样好的解(在图1中两个周期的约束范围内)，这表明DRL算法可以找到与传统优化方法同样好的解。在后续的实验中，由于可能解的数量呈指数增长，寻找最优的固定周期解是不可行的，我们只考虑状态无关的智能体作为评价整体智能体的基准。

·
整体智能体在低交通需求方面明显优于它的状态无关的对手。然而，对于高要求，V2I的优势减弱了;对于3000辆/小时的交通需求，整体智能体只比状态无关的智能体平均速度增加了7%。对产生的政策的分析(由于空间限制没有包括在内)表明，在低交通需求环境下，整体智能体的出色性能是由于整体智能体对接近交叉路口的个别车辆做出反应的能力。因此，许多车辆可以不停车就穿过交叉路口，因为交通灯系统及时地授予了各个路口的通行权。对于非常密集的交通，不再可能对单个车辆做出反应，从而降低了对当前交通状态的整体认识的影响。
·
注意，状态无关的智能体需要为每个需求设置学习一个单独的DNN。另一方面，整体智能体可以学习一个DNN，因为它可以适应当前的需求。尽管整体智能体与不同的状态无关智能体(200、800、1400、2200和3000 vehs/h)接受了相同的需求训练，我们还是选择其他需求设置来评估学习模型(400、600、1000、1800和2600 vehs/h)，以展示整体智能体推广到之前未见过的需求设置的能力。在真实世界的环境中，需求不是稳定的，并且很难精确地量化，因此整体智能体可能比其他方法有更大的优势，因为它能够用一个模型无缝地管理各种不同的需求。

B.Arterial road_主干道

接下来，我们模拟了一条由四个相连的交叉路口组成的主干道，如图4所示。与之前的设置相比，智能体现在需要协调交通灯的信令，以保证交通畅通，使得优化问题更加困难。长主干道被认为是繁忙的主干道，而其他道路是平静的支路。这是通过让更多的车辆在主干道上1模拟进出，而不是在侧道上。图7为两种不同智能体在不同需求下的平均速度。整体智能体在交通网络中观察车辆的能力使得性能显著优于状态无关的智能体。整体智能体的性能增益在低要求(平均速度提高67%，适用于200vehs /h)和高要求(平均速度提高28%，适用于2000vehs /h)时尤为显著。
·

·
图8为需求为200 vehs/h时，交通网络中每条车道的平均等待时间。当有车辆驶近时，通过辅路上的个别驶近车辆的知识，整体智能体可以授予车流进出主路的路权，而主路上当前的交通状况允许出现红灯。因此，在主干道上的等待时间很短，而在支线上的等待时间稍长一些。另一方面，状态无关的智能体，授予大部分的绿化时间到主要道路，创造“绿波”，但很少给道路的权利到支路上。这使得主要道路上的交通相对流畅，但在次要道路上的等待时间较长。
·

C.Sudden inflow_突然流入

在本实验中，我们研究了不稳定需求的影响。我们再次考虑主干道的设置，然而，我们不是调查不同稳定需求的平均速度，而是分析交通波动随时间的平均速度(平均每1秒时间步超过100个独立模拟复制)。我们模拟了两个小时的交通网络，其中前30分钟有1000辆/小时的中等高需求，然后30分钟有非常高的2000辆/小时需求，最后一个小时有1000辆/小时。例如，这种设置可以模拟在一场重要的体育赛事(比如一场引人注目的足球比赛)之后急剧增加的交通流量。图9显示了车辆的平均速度随时间的状态无关智能体和整体智能体。
·
与以前一样，整体智能体可靠地优于它的状态无关的对手。正如所料，在前30分钟，两种代理的平均速度与前一次试验的平均速度一致(比较图7)。交通流量的突然增加导致了平均速度的稳步下降，因为队列被填满，交通变得拥挤。有趣的是，速度下降到一个水平，甚至比在前一个实验中需求2000 vehs/h时测量的平均速度还要低。在将需求降低到中等水平后，拥堵就会消失，平均速度也会恢复到以前的水平。然而，整体智能体观察其周围环境的能力导致一个显着更快的恢复。

D.Composite reward functions_复合奖励函数

所描述的强化学习方法的一个基本特征是它们不需要对系统动力学进行显式建模。这意味着强化学习代理可以方便地优化任何数值奖励函数，包括多个性能指标的加权组合。相比之下，大多数传统的流量优化方法都是明确设计用于优化单个指标的。在这个实验中，我们研究了不同奖励函数的影响。我们比较了系统的平均速度、流量（在道路网络中移动的车辆的百分比）、二氧化碳排放量（道路网络中的总排放量）以及驾驶员的压力水平，该系统与之前的实验一样与优化四个指标的加权组合的系统相比，仅优化平均速度。两个系统都使用 V2I 通信通道。图 10 显示了从 100 个独立模拟重复中获得的指标分布及其成对相关性，每个重复模拟道路网络一小时，具有每小时 1000 辆车的中等交通需求。
·

·
复合奖励函数导致代理在所有考虑的指标上表现与单指标代理相当或优于单指标代理。通过缩短绿灯时间，交通网络中完全停车的次数和持续时间减少，从而导致流量增加约 3%，压力水平降低（从平均压力水平的平均 16.9% 降至平均 13.9%） %)，二氧化碳排放量降低 3%。两种奖励函数的平均速度仅有微小差异（约 1%）。此外，所有的方差都被复合奖励函数减少了。
强化学习清楚地展示了共同优化现代交通系统的多种目标的潜力。然而，由于本实验中四个绩效指标的强相关性，两个奖励函数的最终策略仅略有不同。因此，未来的研究应该研究相互冲突的性能指标（例如速度和行人安全）的联合优化，迫使智能体权衡不同的目标。对于现实世界的实现，应极其谨慎地选择所使用的奖励函数，因为不适当的目标量化可能会产生意外且可能危险的结果。

E.Central urban neighborhood example_以城中心街区为例

在最后一个实验中，我们用巴塞罗那l 'Antiga Esquerra de l 'Eixample 社区的一个区域来替换图4的通用交通网络，如图5所示。这个中心社区主要由住宅建筑和办公室组成——除了道路网络西端的大型“医院诊所”，这导致了通勤交通的拥堵，特别是在上午和下午晚些时候的高峰时段。进入模拟的街道的刷出率与它们各自的车道数量成正比。同样，街道成为车辆目的地的概率与车道数成正比。由于综合奖励函数的使用导致结果策略的差异很小，我们再次比较了只优化车辆平均速度的状态无关智能体和整体智能体的性能(如实验A-C)。但是，我们在这里比较的性能指标比平均速度更多。图11给出了车辆的平均速度、平均流量、系统中平均CO2排放量、驾驶员的平均压力水平、车辆通过交通网络的平均时间以及车辆在行驶过程中等待交通灯的平均时间。
·

·
整体智能体在所有度量和所有需求方面都优于状态无关的智能体。由整体智能体执行的交通灯之间的协调量越高，对所有三种需求场景的优势就越明显。例如，对于所有三种需求场景，整体智能体能够更有效地分配绿灯时间，并将等待时间减少大约50%。较低的等待时间导致较高的平均速度和流速以及降低应力水平。比较平均出行时间(1000车/小时25.36秒，2000车/小时26.59秒，3000车/小时27.33秒)和平均等待时间(1000车/小时11.99秒，2000车/小时15.53秒，3000车/小时17.49秒)的减少，我们发现它们并不相等。这种减少行驶时间和等待时间的差异表明，整体智能体不仅减少了每站的平均等待时间，还减少了总停车次数，减少了车辆减速和加速的需要，使交通更加流畅。车辆加速速度的降低以及车辆在路上停留的时间的缩短，使二氧化碳排放量减少了约20%，减轻了拥堵对环境的影响。

6 Discussion_讨论

概括：

通过是否利用V2I通信接口（获取交通路网中详细的状态信息）的对比实验，得出V2I技术的重要性，可以有效缓解交通拥堵
复合奖励函数的使用可以联合优化多个性能指标

我们开发了一个在模拟交通环境中控制一个或多个交通灯的DRL系统。这种DRL方法能够有效地从与环境的交互作用中学习多交叉路口交通信号灯信号的智能控制。我们将无法与交通网络中的车辆进行通信的状态无关智能体的性能与整体智能体的性能进行了比较，后者具有V2I通信接口，因此可以知道所有车辆的位置和速度。
·
我们的结果显示了v2i技术在缓解拥堵方面的巨大潜力。通过广泛的多交叉口道路网络模拟，我们展示了交通网络状态的整体视图，使交通系统能够做出高度知情的控制决策。这体现在，例如，更高的平均速度，更短的等待时间，更低的二氧化碳排放，以及司机的压力水平。通过在不同流量场景中培训整体智能体，整体智能体学会无缝地集成导航不同需求所需的各种行为。与附近车辆通信的优势在交通量较低时表现得尤为明显，因为智能体学会对个别车辆做出反应，通常允许车辆在不停车的情况下通过交通网络。由于太多车辆接近交叉路口而无法对单个车辆做出反应，因此在高交通量情况下，这种优势会慢慢减弱。
·
复合奖励函数的使用可以实现多个性能指标的联合优化。通过V2I接口，单个车辆可以传输过多的不同指标，从而实现奖励功能的设计，准确封装交通系统的不同目标。然而，交通基础设施不能直接衡量大多数性能指标，但必须依赖个体车辆的协作信息来构建有意义的奖励功能。因此，以V2I通信为特色的交通系统的另一个优势是这些性能指标的传输，如速度、等待时间或二氧化碳排放，从单个车辆到基础设施。

7 Outlook_展望

概括：

针对DRL方法的弱性能保证这一点完善控制设计
整合更多的性能指标，从更长期的思想和其他方面优化交通信号控制（行人安全、噪音水平等）
整合交通基础设施与个人车辆的双边信息交换，从个体和整体层面分别优化交通拥堵

DRL方法的弱性能保证是其在安全相关系统中很少实现的主要原因。由于交通灯控制系统可以利用一个设计上安全的操作空间，例如，只对可用的阶段使用兼容的流，并强制规定适当的黄色时段，因此它们可能是DRL安全相关应用的第一个试点项目的合适领域。这样的系统可以在模拟中进行训练，直到找到合理的解决方案，然后部署到现实世界中，在那里它可以不断学习，以进一步适应系统的实际需求。为了持续学习，V2I接口的可用性是至关重要的，因为每个车辆的奖励指标都需要传达给基础设施。
·
在本研究中，我们优化了网络中车辆的平均速度或几个性能指标的简单组合。当使用更复杂的模拟或将智能体部署到真实世界时，这种简单的奖励函数可能会被证明是短视的。例如，我们可以整合其他目标，如行人安全[67]、[94]、司机之间的公平性或住宅区的噪音水平。进一步的研究需要明确交通系统的具体目标，并适当量化和平衡它们。
·
最后，另一个令人兴奋的研究方向是整合交通基础设施和个人车辆之间的双边信息交换。例如，向司机建议适当的速度或路线，可以使基础设施更好地处理和分配交通，从而更有效地使用特定的道路基础设施，进一步缓解拥堵。