论文链接:https://arxiv.org/abs/2311.16203
Github仓库:https://github.com/ChyaZhang/ChatTraffic
摘要
交通预测是智能交通系统(ITS)最重要的基础之一。传统的交通预测方法仅依靠历史交通数据来预测交通趋势,面临两大挑战。1) 对异常事件不敏感。2) 长期预测性能有限。在这项工作中,我们探索如何将生成模型与描述交通系统的文本相结合,用于交通生成,并将这项任务命名为文本到交通生成(TTG)。TTG 任务的关键挑战在于如何将文本与道路网络的空间结构和交通数据联系起来,以生成交通状况。为此,我们提出了 ChatTraffic,这是第一个用于文本到交通生成的扩散模型。为了保证合成数据和真实数据之间的一致性,我们用图卷积网络(GCN)增强了扩散模型,以提取交通数据的空间相关性。此外,我们还为 TTG 任务构建了一个包含文本-流量对的大型数据集。我们在发布的数据集上对我们的模型进行了定性和定量基准测试。实验结果表明,ChatTraffic 可以从文本中生成真实的交通状况。
引言
交通预测是智能交通系统(ITS)领域的一项基本而关键的任务。其主要目的是根据历史数据预测未来的交通状况。这项任务在促进高峰流量预警、缓解拥堵和优化出行路线方面发挥着重要作用。城市交通系统由于其复杂性,很容易受到各种影响因素的影响,包括天气、交通事故、道路施工等。因此,考虑这些不同的因素对于提高交通预测的准确性至关重要。
大多数交通预测工作都使用历史数据来预测未来数据。尽管这些方法已在特定数据集上展示了先进的短期预测能力,但它们仍面临两大挑战,如图 1 所示。1) 对异常事件不敏感。现实世界中的城市交通系统经常会遇到异常事件,如车祸、道路施工和极端天气,这些都会严重破坏交通状况。因此,这些事件会导致典型交通模式的偏离。仅根据历史数据训练的方法往往难以在此类异常事件发生时提供准确预测。2) 长期预测性能有限。长期预测在交通管理中发挥着重要作用。虽然现有的交通预测方法在短期预测(通常在 30 分钟内)方面表现出色,但在长期预测方面仍有相当大的提升空间。因此,现有的交通预测方法往往无法应对许多实际情况。例如,下周六晚北京工人体育馆将举办一场音乐会。体育场附近的交通状况可能与正常模式大不相同。传统的预测方法不适合预测周六晚这一特定场景的交通状况。
针对传统交通预测方法的局限性,一些研究人员在以往的研究中已经将交通数据与文本结合起来进行交通生成。例如,Huo 等人构建了一个数据集,其中包含从社交媒体收集的交通相关文本数据和相应的客流数据,并提出了从文本生成交通状况的 T2GAN 方法。然而,T2GAN 需要将城市划分为规则网格才能生成交通状况,这大大限制了其适用性。此外,这些文本对交通状况的描述不够具体,如 "北京整体交通状况良好。客流量较小"。此外,T2GAN 在推理阶段需要输入文本和交通数据。为此,我们探索了一种新颖的多模态交通预测任务,称为文本到交通生成(TTG),如图 2 所示。在 TTG 中,我们不仅利用交通数据作为训练的输入,还结合了描绘并发交通状况的文本描述,而推理只需要文本。为了更好地促进交通预测领域的多模态学习,我们还为 TTG 任务构建了一个包含详细文本描述的大量交通数据集。
要将交通相关文本与交通数据联系起来,生成模型提供了一种可行的方法。其中,基于生成对抗网络(GAN)的方法通过对抗训练来隐式拟合数据分布,从而实现高质量的生成。然而,基于 GAN 的方法总是受到模式崩溃和训练不稳定的限制。另一方面,基于变异自动编码器(VAE)的方法训练相对稳定,但与 GAN 相比,其细节模糊,输出质量较低。与 GAN 和 VAE 相比,扩散模型更易于训练,而且具有更强的生成能力,是当今最稳健的生成模型之一。基于扩散的方法已在许多生成任务中被证明是成功的,尤其是在从文本生成图像方面。受扩散模型成功的启发,我们相信扩散模型也有潜力很好地解决 TTG 任务。
在本文中,我们将流量生成视为一系列扩散步骤,并针对 TTG 任务介绍了基于 Latent Diffusion Model的简单而有效的框架 ChatTraffic。为了克服传统流量预测方法所面临的挑战,我们使用包含时间和事件的文本来指导去噪过程,从而实现流量生成。此外,我们还利用图卷积网络来增强扩散模型。除时间和事件外,交通状况还受到道路网络结构的影响。有鉴于此,引入 GCN 的主要思路是利用路网的空间信息作为约束条件,调整交通特征,从而实现更准确的条件交通生成。如图2所示,所提出的 ChatTraffic 能够根据文本生成交通状况。
方法
给定描述交通系统的文本 y,ChatTraffic 会对数据 xt 进行去噪处理,最终得到无噪声的 x0。我们首先对数据进行处理,使其更适合作为扩散模型的输入。同时,使用文本编码器将提供的文本编码为特征嵌入。结合交叉关注机制、GCN 和 Unet,ChatTraffic 会预测 εθ (xt , t),从而得到更干净的 xt-1。经过 T 个时间步后,得到无噪声的 x0。通过数据可视化,我们将交通状况呈现在地图上,以提供更直观的表示。
数据处理:
数据集包括北京五环内超过20,000个文本交通对。每个数据x包含从1260条道路中衍生出的三种特征,其中x∈RN×d, N = 1260, d = 3。然而,x的维度存在相当大的差异,使得它不适合作为扩散模型的输入。为了解决这个问题,我们将交通数据x以图像的形式重新排列。具体来说,我们定义了36条额外的“空道路”,并将它们填充到x中。如果我们将x视为图像,则三个通道代表速度,拥堵程度和通过时间,每个像素代表一条道路。在图4中,我们说明了在ChatTraffic的整个向前过程中,流量数据x是如何演变的。
U-Net & 文本编码器:
为了将文本与交通数据关联起来,我们将TTG任务表述为条件生成问题,并使用修改后的LDM实现它。LDM将数据x转换为潜在空间得到z,通过编码器E(·)实现。然后,对z进行扩散处理,利用解码器D(·)得到重构后的x。在我们的设置中,由于交通“图像”的维度(H和W)较小,我们忽略了E(·)和D(·),直接将x作为输入。考虑到U-Net在LDM中结合ResNet和交叉注意的有效性,我们保留了LDM的去噪网络。在LDM中,来自条件编码器的特征通过交叉注意机制被应用,该机制被表述为
其中Q = W(i)φi (xt), K = W(i)ET (y), φi (xt)是U-Net的中间表示。W (i)和W (i)是QK可学习参数。ET(·)是条件编码器,我们使用BERT提取文本嵌入。
在对条件生成模型进行抽样时,多样性和一致性是两个对立的目标。图像生成任务,例如文本到图像的生成,通常优先考虑不同的结果。然而,TTG任务更加强调生成一致性。具体来说,TTG任务旨在从相同的文本输入生成一致的流量情况。为了达到这种一致性,我们将GCN整合到扩散模型中,通过引入路网的空间信息来提供更强的指导。在数据集中,我们提供了一个邻域矩阵A来表示所有道路的空间关联。给定邻接矩阵A和数据xt,双层GCN可以表示为
我们进一步将ChatTraffic的优化目标重新制定为
在完成ChatTraffic的训练后,给定一段描述交通状况的文本,我们得到预测的交通数据x´∈RH ×W ×d。每个像素点对应一条特定的道路,我们可以在地图上可视化这些道路的交通状况,如图2所示。我们使用三种不同的颜色条来表示三种不同的特征,其中速度和通过时间是连续数据,拥塞水平是离散数据。
实验
数据集:由于没有适合TTG任务的公开可用数据集,我们构建了一个大量的数据集并对其进行了实验。该数据集覆盖了北京五环内1260条道路,提供了22320对文本交通。每对包含交通数据x(其中x∈R1260×3)和相应的描述交通系统状态的文本。我们将整个数据集的80%作为训练集,剩下的20%作为测试集。数据采集周期为4分钟。交通数据的三个维度是每条道路上的速度、车辆通过时间和每条道路的拥堵程度。文本内容包括异常事件发生的时间、类型和地点。
实验设置:对于传统的流量预测方法,我们使用默认参数进行训练。对于ChatTraffic,我们使用T = 1000噪声步长和线性噪声调度来训练它。线性噪声表从0.00085开始,到0.012结束。基本学习率设置为10−5,批量大小设置为4。
实验结果:
我们将我们提出的ChatTraffic与几种最先进的流量预测方法进行了定量比较。实验结果如表1所示。对于传统的流量预测方法,我们选择从测试集中连续输入15个数据,覆盖1小时的时间,并对随后的5、10、15个数据进行预测。
使用ChatTraffic,我们直接输入需要预测的三个特定节点对应的文本。表1表明,流量预测方法的性能随着时间的增加而恶化。相比之下,ChatTraffic在所有三个节点上始终保持低而稳定的预测误差。然后,我们将ChatTraffic与整个测试集上的流量预测方法进行定量比较,如表III所示。同样,我们使用15个连续数据作为传统方法的输入,并使用滑动窗口方法遍历整个测试集。表1和表3表明,ChatTraffic不仅在短期预测中与最先进的流量预测方法的性能相匹配,而且在长期预测中也保持了这种性能。这一证据证实,ChatTraffic采用的点对点生成策略不受预测周期持续时间的影响。换句话说,ChatTraffic有效地缓解了当前流量预测方法长时间预测性能有限的挑战。因此,ChatTraffic拥有生成未来交通情况的能力,特别是在受异常事件影响的场景下。
为了直观地观察ChatTraffic感知道路异常事件的能力,我们还进行了定性分析。在图5中,我们用两种代表性方法对ChatTraffic进行了全面的可视化比较。第一到第五行代表五个特定的节点。从红框中可以看出,ChatTraffic的输出与地面真实情况密切一致,表明它有能力反映异常事件对道路的影响。相反,这两种传统方法很少能成功预测异常,如个别道路拥堵。这些可视化结果表明,与传统的交通预测方法相比,ChatTraffic对交通异常更加敏感,从而可以更准确地预测交通状况。
结论
在本文中,我们探索了一种新的多模式交通预测任务,称为文本到交通生成,旨在生成由文本描述的交通状况。为此,我们提出了ChatTraffic,这是第一个基于扩散的文本到流量生成模型,并构建了一个实质性的文本流量数据集。与传统的仅使用历史数据的流量预测方法不同,ChatTraffic结合了扩散模型的先进性和GCN提供的空间感知能力,具有真实、准确的流量生成能力。我们通过对构建的数据集进行对比实验并展示可视化结果,证明了ChatTraffic相对于传统预测方法的优越性。由于TTG具有重要的实际应用,特别是在提高城市交通系统管理效率方面,我们预计研究人员对TTG领域的兴趣会越来越大。未来,我们将进一步探索通过多模式学习来提高交通态势生成的准确性。