真的行吗？让ChatGPT优化交通信号灯-CSDN博客

大语言模型作为交通信号控制多智能体的能力与机会

作者：Siqi Lai, Zhao Xu, Weijia Zhang, Hao Liu, Hui Xiong
单位：香港科技大学(广州)人工智能研究中心

摘要

交通信号控制是通过调节交通信号灯相位组合和时长来优化道路网络效率。现有研究主要集中在基于启发式或强化学习(RL)的方法上，这些方法往往在不同交通场景中的可移植性较差，且可解释性也较差。本文介绍一种新方法，LLMLight，利用大型语言模型(Large Language Model, LLM)来执行交通信号控制任务。利用LLM良好的泛化和zero-shot推理能力，LLMLight可以完成类似人类的决策过程，实现高效的交通流管理。具体来说，该框架首先将任务描述、当前交通流量状况和先验知识放入提示词(prompt)中。随后，利用LLM的思维链(CoT)推理能力来识别下一相位，确保路网的最佳效率。本文模型在五个真实世界的数据集上表现良好。值得注意的是，即使没有任何交通管理任务的训练，LLMLight也有较好的泛化能力、可解释性和zero-shot推理能力。

1、背景

交通拥堵已成为影响人类社会和环境的一个关键问题，随着城市的不断扩展和发展，这一影响继续升级。在此背景下，交通信号控制(traffic signal control,TSC)的优化已成为智能交通管理领域的一个重要研究课题。信号控制对城市整体交通效率有重大影响，优化交通信号有望带来实质性的经济、环境和社会优势。由于交通和道路网络的动态特性，使得优化交通信号成为一项有挑战的工作。

过去对交通信号控制的研究主要分为：交通工程方法和基于强化学习(RL)的方法。交通工程方法主要围绕着构建高效的启发式算法，根据车道级的交通条件动态地调整交通信号。然而，这些方法严重依赖人工设计，需要大量的人力。深度神经网络(DNNs)引入基于RL的技术来应对这一挑战。这些方法在各种交通场景中都表现出了较好的性能。然而，基于RL的模型也存在缺点：有限的泛化能力，特别是在不常见的情况下，因为训练数据不可能涵盖所有可能的交通情况。此外，基于RL的模型缺乏可解释性，由复杂的黑盒-DNN发展而来的，这使得很难解释模型是如何得出特定的决策或策略的。

近年来，大型语言模型(LLM)的出现，在各个领域都表现出了显著的zero-shot和泛化能力，可以执行类人的逐步推理过程来解决复杂的任务。值得注意的是，AutoGPT(2023)提出将任务分解为多个子目标，并进行迭代，直到主要任务完成。Voyager(2023)提示GPT4设计一个自动课程以探索环境，逐步解决更困难的任务。在智能交通领域，GPT-Driver (2023)指出先前基于规则和基于RL的方法无法处理极端驾驶场景或缺乏可解释性，建议指导GPT-3.5来处理自动驾驶中的运动规划任务。PromptGAT(2023年)使用LLM来生成人类知识，以帮助DNN模型理解特殊情况，在TSC任务中，弥合了真实场景和仿真之间的差距。TrafficGPT(2023)利用GPT分析和处理交通数据，在相关交通控制任务中提供类人的决策支持。然而，LLM作为控制智能体在TSC任务中的有效性仍未被探索。

本文介绍一个新框架LLMLight，旨在利用LLM作为控制智能体，授权其在交通信号控制任务中的做出类人决策。具体地说，我们认为TSC是一个部分可观察的马尔可夫过程。每个智能体都管理位于一个十字路口的交通信号灯。我们首先在一个信号切换时间步长中将任务描述和流量条件组合成一个提示符。随后，我们指示LLM控制智能体执行zero-shot思维链(CoT)推理，生成一个控制策略，以维持道路和交叉口的最优效率。为进一步提高生成策略的性能，我们还使用先验知识提升提示词来指导LLM做出更复杂的决策。LLMLight的概述如图1所示。通过在不同交通场景下对不同的LLM变体进行实验，我们得出了本文的关键结论：

即使没有任何预演的提示，LLM也可以在交通信号控制任务中提供有效的控制策略；
LLM展示了较好的泛化能力，因为它们在两个不同的道路网络和多个交通流量数据集上持续取得了最佳结果，包括极端高密度交通条件下；
利用先验知识是提高LLM制定策略质量的有效方法，同时也表明预先训练的LLM缺乏智能交通管理方面的专长。

总的来说，上述发现突出了LLM在交通信号控制中显著的zero-shot推理能力、泛化性和可解释性对交通管理任务的预训练或微调。

本文的主要贡献如下：

我们设计了LLMLight框架，将LLM集成到交通信号控制任务中，在不同的流量中场景表现良好，据我们所知，这是第一次探索将LLM作为交通信号控制任务中的智能体。
本文对不同交通条件和各种提示词设计下的LLM的控制策略进行了广泛的分析，强调了在交通信号控制任务中使用LLM的优势和局限性。

为未来的研究确定了有希望的方向，特别是集中在通过进一步整合LLM来推进智能交通的潜力。

2、准备工作

在本节中，我们首先介绍交通信号控制任务中的关键概念。

定义1-道路网

道路网是一个由交叉口和车道组成的有向图。车道分为直行、左转、右转，每个车道被划分为多个小段.

定义2-交通信号相位

将交通信号相位定义为 ()，其中是一组允许通行的车道。和分别表示绿灯和红灯期间。激活的交通信号相位允许特定车道组中的车辆(没有冲突的运动)通过，而其他相位则显示红灯，强制停车。共分为四个信号相位，包括ETWT(东西直行)、ELWL(东西左转)、NTST(南北直行)和NLSL(南北左转)。

3、大语言模型(LLM)驱动交通信号控制

本节首先介绍了交通信号控制在LLM授权上下文中的问题定义。然后，详细介绍了提出的LLMLight的工作流，包括

观测数据收集：从道路网收集交叉口的交通状况(例如，排队和进口道车辆数)
提示词生成：将任务相关信息和先验知识组合成人类可读的文本，提示LLM找到最能提高十字路口交通效率的交通信号阶段
动作执行：执行LLM控制智能体生成的策略，将红绿灯切换到目标相位

3.1 基于LLM的交通信号控制

我们将交通信号控制定义为一个部分可观测的马尔可夫过程，根据观测空间在十字路口、动作空间A和相关任务描述的当前交通状况下，LLM控制智能体输出策略π，其目的是维持道路网交叉口的最佳效率：

3.2 观测信息收集

我们收集了从真实的交通环境中很容易获得的交通状况特征，作为LLM控制智能体的观察，包括

排队车辆数：速度低于阈值的车辆被认为是排队的车辆，在道的数数为
排队车辆的平均等待时间：将车道排队车辆的平均等待时间记为，其中是排队车辆的等待时间
行进车辆数量：车辆速度超过被认为是在行进的车辆。我们将车道段驶近的车辆数计算为
行进车辆的平均速度：将所有行进的车辆的平均速度总结为，其中是接近车辆的速度，是行进车辆数

根据不同的优化目标(例如最小化排队车辆数量、等待时间等)，智能体要么使用上面列出的所有特征，要么使用其中一个子集。这些特征将被组成人类可读的文本，作为LLM控制智能体的观测内容。

3.3 提示词生成

除了观察之外，还进一步提示LLM控制智能体提供详细的交通场景描述、任务描述和动作空间，使他们能够理解任务并做出合理的决策。此外，还注入了先验知识来帮助LLM做出更好的决策。这项工作中研究了四个提示模板的性能，基本提示模板避免为LLM提供可用的先验知识，从而能够评估其独立生成策略的能力。在此基础模板的基础上，我们进一步提出了三种不同类型的具有先验知识的提示，以为推理提供额外的指导LLMs。

基本模板：该模板包括场景、任务、动作空间描述和观察，提供了交通信号控制任务所需的基本信息。
基本模板+常识：除了基本模板之外，还为LLM提供了一个基于常识的提示，以测试其将一般知识集成到交通控制过程中的能力。具体来说，该指令指导LLM优先考虑排队车辆和行进车辆。
基本模板+交通流量协调提示：这个级别不仅要求LLM优化进出车道的交通，而且要求防止进出车道潜在的拥堵，提出了一个更复杂的策略任务，需要常识性推理。
基本模板+等待时间预测指导：我们提出了一种结构化的思维方法来协助LLM，促使LLM预测未来的累积排队时间。这涉及到对特定车道上的车辆在后续相位不允许通过十字路口时可能延迟的逐步“what-if”分析。该指引鼓励LLM缓解未来可能出现大量交通拥堵的车道拥堵。

3.4 执行动作

为了指示LLM管理红绿灯，提示LLMs直接输出所选的动作或用Python编写的控制策略函数：

输出动作：LLM在概述了识别最佳交通信号的基本原理后，直接回答所选的动作。
输出策略函数：LLM生成在Python中实现控制策略的函数，分离数学计算，使LLM集中于逻辑策略生成。

最终通过使用生成的预演的提示来指导LLM控制智能体来执行zero-shot推理，从而确定下一相位的最优交通信号。我们设计的提示符模板的框架如表1所示。有关我们的详细设计，请参考附录A.5。

4、实验

我们通过回答以下研究问题来对LLMLight进行评估：

RQ1：与交通工程方法和RL方法相比，具有zero-shot推理能力的LLMLight性能如何？
RQ2：LLMLight在不同城市和交通量上的泛化能力如何？
RQ3：LLMLight在提供可解释的交通信号控制决策方面的可解释能力如何？

首先，我们介绍了实验环境和设置。然后，对三种不同类型的智能体的整体性能进行了综合分析。随后，我们研究了不同方法的泛化性和可解释性。最后，我们分析了它们在极端高密度交通场景下的性能，挑战其在不常见情况下的泛化能力和鲁棒性。

4.1 实验设置

4.1.1 数据集

使用5个真实世界的数据集来在不同的交通信号控制方法之间进行全面对比。在不同的时期，这些数据集包括中国济南东风街道的三个交通流量记录和中国杭州古当街道的两个交通流量记录。此外，我们在济南和杭州道路网络上构建了两个合成的交通流数据集，与原始数据集相比，其到达率显著提高。有关这些数据集的更多细节，参考附录A.1。

4.1.2 实验环境

我们在开源模拟器CityFlow(2019)上进行了实验，以评估每种比较方法的效率。在指定起点和目的地后，模拟器将控制目标车辆沿着最短的路径到达其目的地。Cityflow提供API来获取流量状态特征，并执行智能体所选择的操作。绿灯时长被设置为30秒，3秒黄灯和2秒全红。真实世界的交通流模拟跨度为1小时，合成数据集持续了10分钟。我们认为慢于0.1米/秒的车辆是排队，右转不受灯控。

4.1.3 评估指标

用平均旅行时间(average travel time,ATT)来评估交通信号控制智能体机构制定的不同政策的性能，这个指标量化了车辆从起点到各自目的地的持续时间。还分析了车辆的平均队列长度(AQL)和平均等待时间(AWT)，提供了对每个智能体如何优化其性能以最小化ATT的综合评估。

4.3 模型对比

对于交通工程方法，采用Random, FixedTime,Maxpressure作为基准。对于RL方法，我们将MPLight,AttendLight,PressLight, CoLight, Efficient-CoLight, Advanced-CoLight与提出的方法进行了比较。利用GPT-4作为交通信号控制智能体。有关上述模型的更多细节，请参考附录A.2。我们在附录A.4中进一步报告了对Llama-2和ChatGPT-3.5进行的实验结果。

4.4 对比经典方法(RQ1)

我们首先使用常识实现提示模板，以直接输出基于GPT-4的控制智能体上的操作。实验结果如表2所示，LLMLight在平均旅行时间(ATT)上，在所有基准都达到SOTA(state-of-the-art)或可比的性能。虽然目前最好的RL方法Advanced-CoLight在大多数数据集的ATT中取得了最好的性能，但一系列CoLight模型需要相邻交叉口之间进行通信。相反，LLMLight仅利用目标十字路口的观测特征，获得了具有竞争力的结果，LLM在交通信号控制任务中有显著的zero-shot能力。此外，尽管基于RL的模型在ATT方面取得了显著的结果，但与相对延长的平均等待时间(AWT)需要进行权衡。这意味着，虽然总体旅行时间减少了，但某些司机在十字路口的等待时间可能会延长。在现实世界中，最小化等待时间是至关重要的，因为长时间的等待会引起司机的焦虑。相比之下，提出的LLMLight不仅确保了相对较短的总体旅行时间，而且在大多数数据集上实现了最低的排队等待时间。

此外，我们还给出了在LLMLight上生成控制策略函数的实验结果。与直接做决策相比，LLMLight使用Python在更多数据集实现启发式算法演示了增强的性能。制定策略代码可以分离数学计算，使LLM专注于逻辑推理，从而获得优越的性能。采用这种方法，未来的进展可能涉及开发LLM控制智能体，利用外部API(例如，计算器、天气和交通传感器)，为实现全自动智能交通信号控制奠定基础，对这一研究的探索将在未来进行。

4.5 泛化性能对比(RQ2)

4.5.1 可移植性

首先通过在另一种不同的道路网络中实现预训练模型来研究不同方法的可移植性。实验结果如图3所示，没有标记“-T”的模型在同一数据集中进行训练和测试。否则，它们将在一个不同的道路网络上进行预先的训练(例如，我们使用在济南中预先训练的模型来评估杭州中的可移植性)。系统会提示LLM控制智能体直接输出控制操作。我们观察到基于RL的方法的性能显著下降，特别是MPLight和CoLight。虽然Efficient-Colight和Advanced-Colight利用更具有代表性的观察特征来保持相对稳定的性能，但他们的方法需要在特征工程中获得额外的领域知识和人工工作。相反，LLMLight通过在所有数据集上都保持最稳定的性能而脱颖而出，即使是使用简单的常识性推理。这些结果强调了LLMLight在不同流量上下文中令人可靠的可移植性和对实用的鲁棒性。

4.5.2 极端高密度交通场景

当大量的交通流量持续出现在交叉口，这种情况在训练过程中很少出现。图4显示了在五个真实数据集上的车道队列长度的分布，其中交通信号由Advanced-CoLight控制。值得注意的是，它们显示出相对平稳的交通条件，排队车辆的积累显示出长尾分布。为了评估不同方法在高密度交通流量场景下的有效性，我们在济南和杭州道路网络上生成了两个合成交通流量数据集，其特征是在300秒间隔内到达的车辆大约是原始交通流量数据集的4倍。表3显示了经典方法(分别在济南1和杭州1上训练的RL模型)和LLMLight(通过等待时间预测指导提示直接输出动作)的性能。我们的实验表面RL模型性能会下降，因为它们表现出与Maxpressure相似或更差的性能。这表明这些预先训练的RL模型难以应对此类场景。

在极端的高密度交通条件下，特别是在面对与训练阶段相比车辆显著增多时。相比之下，LLMLight始终表现出优越的性能，强调了其在更重的交通条件下的健壮性和实用性。

4.6 可解释性(RQ2)

为了详细分析LLMLight的可解释性，我们在济南数据集上进行了模拟。图5显示了该十字路口的交通状况和GPT-4的决策背后的基本原理。这种情况显示，南北车道严重拥堵，与基于RL的方法相比，LLMLight不仅可以输出高效的控制策略，而且还可以在相应的决策背后进行详细的解释。通过分析不同提示模板下GPT-4的基本原理，我们有以下观察结果。

智能体在基本提示(没有事先知情的情况下)准确地识别南北段左转车道的拥堵情况。然而，它的理由仅仅是基于车道上的车辆总数，平等地对待排队和驶近的车辆。这种方法忽略了靠近十字路口的车辆和距离较远的车辆之间的区别，这可能会延长排队车辆和预计即将到达的车辆的等待时间。相反，配备常识的智能体被指示优先考虑排队和接近路口的车辆，有效地解决最紧急的拥堵情况。

然而，这表明现有的LLM甚至是GPT-4，在交通控制任务方面缺乏特定领域的专业知识。带有交通流量协调提示的智能体同时考虑进站车道和出线车道，从而协调路网上的交通流量分布。此外，以往的研究往往忽视了车辆排队等待时间的影响。有等待时间预测指导的智能体通过预测即将到来的排队时间来解决这方面，并回答：“如果特定车道上的车辆在下一相位不能通过十字路口，他们将继续等待多久？”，然后进行逐步推理。它识别了早期排队的车辆和那些预计很快到达的车辆的累积排队时间，然后最终选择最佳的信号相位，以缓解潜在等待时间最长的车辆。

5、结论和开放性问题

5.1 结论

在本研究中，我们引入了新的框架LLMLight，利用大型语言模型(LLMs)作为交通信号控制智能体。通过指示LLM对当前交通状况进行类人的逐步分析，智能控制智能体可以明智地选择最优信号相位，从而提高路网的整体效率。通过在5个真实交通数据集上进行综合实验，结果表明提出的框架比以前的研究更优越有效。

5.2 开放问题

我们的发现还揭示了未来研究中几个较好的方向：

基于LLM的RL：我们的实验表明，LLM可以通过有效地利用自然语言级别上的有用信息来处理交通信号控制任务。对这方面的进一步探索可以有效地将LLM作为支持工具集成到基于RL的交通管理任务中，如特征工程和奖励函数构建。
多交叉口交通信号控制：值得注意的是，我们的研究没有考虑交叉口信号灯多智能体之间的交互作用。进一步研究包括探索多交叉口交通信号控制场景中的合作，其中包括相邻交叉口之间的智能体通信和其他智能体的行为预测。这种整合可以导致全局更有效的交通流量协调。
基于LLM智能体的自动交通信号控制：我们的实验揭示了现有LLM的局限性，它们缺乏在交通信号控制任务方面的专门知识。未来研究延开发具有特定领域的交通管理专长的智能交通导向型LLM。此外，LLM智能体还可以配备各种外部API(例如，计算器、天气、交通传感器等)。这种集成使智能体能够自主地感知、分析和控制交通流，为一个完全无人干预的和智能的交通管理系统奠定基础。