阅读笔记：Diffusion Convolutional Recurrent Neural Network: Data-Driven Traffic Forecasting-CSDN博客

本文链接：https://blog.csdn.net/weixin_49891405/article/details/136463668

本文介绍DCRNN（扩散卷积循环神经网络），它由扩散卷积、Seq2Seq架构和预定采样技术组成。阐述了空间依赖性建模和时间动态学建模方法，通过METR - LA和PEMS - BAY数据集实验，用MAE等指标评估性能，消融实验证明了双向随机游走、时间依赖性建模和预定采样技术的有效性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

DCRNN（扩散卷积循环神经网络）

由扩散卷积（Diffusion Convolution）、序列到序列架构（Seq2Seq）以及预定采样技术（Scheduled Sampling）组成

预定采样技术：

训练循环神经网络中应用的技术，特别是在Seq2Seq模型，这些任务中，模型的训练和推断阶段通常存在差异。

训练阶段，在生成下一个输出时，模型会使用真实的先前输出作为输入。
推断阶段，模型则需要依赖自己生成的先前输出来生成新的输出，因为真实的先前输出在实际应用中是不可得的。

工作原理：在训练的早期阶段，模型更多地依赖于真实的先前输出。但随着训练的进行，模型逐渐过渡到更多地依赖于自己生成的输出。这种过渡通常是通过一个概率决定的，这个概率随着时间的推移而减小。

空间依赖性建模

随机游走

重启概率α：

在随机游走过程中返回到起始点并重新开始的概率

状态转移矩阵：等于出度对角矩阵的逆乘以权重矩阵

描述图中从一个节点到另一个节点转移概率的矩阵。

出度对角矩阵：

对于图中的每个节点，其出度是指从该节点出发到达其他节点的边的数量。在矩阵中，这些出度值被放置在对角线上，而其他位置都是零。

马尔可夫过程（Markov Process）：

它是一种随机过程，其核心特点是“无记忆性”，意味着下一个状态的概率只依赖于当前状态，而不依赖于之前的状态。在图的上下文中，这意味着从一个节点到下一个节点的转移概率仅依赖于当前节点。

静态分布（Stationary Distribution）：

马尔可夫链在足够长的时间后会趋于一个稳定状态，即无论最初的状态如何，最终会收敛到一个固定的概率分布，这就是所谓的静态分布。对于给定的图G，这个分布P是一个N×N的矩阵，其中N是图中的节点数。

矩阵中的第i行Pi,:：

这一行表示从节点vi出发的扩散概率分布。具体来说，这一行的每个元素表示从节点vi到达图中每个其他节点的概率。这可以理解为从该节点出发的影响力或者与其他节点的接近度。

静态分布的计算：扩散过程的静态分布可以表示为图上无限随机游走的加权组合

加权组合的无限随机游走：这意味着静态分布不是基于单一路径或有限次游走来计算，而是通过考虑图上所有可能的无限随机游走路径来构建。每条路径都有一定的权重，这些权重反映了每条路径在整体扩散过程中的重要性或贡献。这种方法考虑了从每个节点到图中其他所有节点的所有可能游走路径。

扩散步骤（k）：

扩散步骤指的是在图上进行随机游走的步数。在每一步中，扩散（例如交通流、信息等）从一个节点移动到相邻的节点。

有限K步截断：

由于无限步数的随机游走在实际中不可行，因此在实践中通常采用有限步数的扩散过程。这意味着扩散仅考虑到达第K步时的状态，而不是无限步。

可训练的权重：

为了更准确地模拟和预测扩散过程，每个步骤被赋予一个可训练的权重。这些权重可以在训练过程中调整，以更好地适应或解释观测到的数据。

稀疏图：

在图论中，一个稀疏图是指边的数量远少于节点数的最大可能边数的图。最大可能边数通常是在完全图中计算的，完全图是指图中每对不同的节点之间都有一条边相连的图。对于有N个节点的无向图，最大可能边数是N(N-1)/2；对于有向图，这个数是N(N-1)。

扩散卷积

X是图形信号（N×P），f $\theta$ 是过滤器，k是随机游走的步数，K是有限的随机步，θ是过滤器的参数（矩阵大小为K×2）, $D^{-1}_{O}W$ 和 $D^{-1}_{O}W^{T}$ 是用于描述扩散过程的状态转移矩阵。 $D^{-1}_{O}W$ 代表正向扩散过程（例如从上游到下游的交通流），而 $D^{-1}_{O}W^{T}$ 代表反向扩散过程（例如从下游回到上游的交通流）。这些状态转移矩阵捕捉了网络中各节点间的连接关系及其强度。

扩散卷积层

X是输入（N×P），H是输出（N×Q）， $f_{\Theta }$ 是过滤器，α是激活函数

特征映射：

P维到Q维的映射意味着每个节点的P维特征通过扩散卷积层被转换为Q维输出。它被用于提取更高级或更有用的特征表示。

参数张量Θ：

Θ是一个四维张量，代表卷积层的参数。它的维度是Q×P×K×2，这里Q是输出维度，P是输入维度，K是扩散步骤数，而2可能表示正向和反向扩散过程。

卷积滤波器的参数化：

Θ_q,p,:,: ∈ R^K×2是一个子张量，用于第p个输入特征和第q个输出特征之间的卷积操作。它包含了K步扩散过程中每一步的参数，这些参数决定了如何从输入特征提取信息并生成输出特征。

度矩阵(Degree Matrix)：

在图论中，度矩阵是一个对角矩阵，其对角线上的元素表示图中每个节点的度（Degree），即与每个节点相连的边的数量。对于无向图，它就是每个节点的连接数；对于有向图，则可能是入度或出度。

邻接矩阵W：

在图中，邻接矩阵W用于表示节点之间的连接关系。如果节点i和节点j之间有边，则W的相应位置（i,j）上的值为1（或边的权重），否则为0。

图拉普拉斯矩阵L：

图拉普拉斯矩阵是由度矩阵D和邻接矩阵W组合而成的。基本的图拉普拉斯矩阵是L = D - W。

标准化图拉普拉斯矩阵：

标准化的图拉普拉斯矩阵是

这种标准化形式有助于控制不同节点度之间的差异，使得拉普拉斯矩阵的性质更加统一。

时间动态学建模

利用RNN的变体GRU来建模时间依赖性，用扩散卷积代替GRU中的矩阵乘法，提出了扩散卷积门控循环单元（DCGRU）。

X(t),H(t)分别为输入和输出，r(t), u(t)分别为重置门和更新门，*G为扩散卷积，Θr,Θu,ΘC分别是过滤器对应的参数。

在多步预测中，我们采用了Seq2Seq架构。编码器和解码器都是带有DCGRU的循环神经网络。

在训练期间，我们将历史时间序列输入到编码器，并使用其最终状态来初始化解码器，解码器根据之前的真实数据生成预测。在测试时，真实数据被模型自身生成的预测替换。训练和测试的输入分布之间的差异会导致模型性能下降。

解决性能下降问题。提出利用预定采样技术（Scheduled Sampling），在第i次迭代中，我们以概率ε_i提供真实数据，或以概率1 - ε_i提供模型的预测。在训练过程中，ε_i逐渐减小到0，以允许模型学习测试分布。

实验

数据集：

(1)METR-LA

该数据集中的交通信息由洛杉矶高速公路回路探测器收集，选择了207个传感器，四个月的数据(2012.3.1--2012.6.30)

(2)PEMS-BAY

该数据集中的交通信息由源自加州运输机构，选择了325个传感器，六个月的数据(2017.1.1--2017.5.31)

上述两个数据集的传感器分布图

传感器图的建立：

计算传感器成对道路网络距离（基于实际道路网络，而非简单的直线距离），使用阈值化高斯核来构建邻接矩阵（判断传感器对之间是否存在边，以及边的权重）。

阈值化规则：

如果两个传感器之间的距离小于或等于某个阈值（κ），它们之间就会在图中有一条边。这条边的权重（Wij）是通过高斯函数计算出来的，取决于它们之间的距离和距离的标准差（σ）。如果距离大于K，这两个传感器之间在图中就没有边。

学习率退火：

学习率退火是一种调整学习率的技术，旨在随着训练的进行逐渐减少学习率。这通常有助于模型更好地收敛并防止过拟合。在训练的早期，较高的学习率可以帮助快速进步，而在后期，较低的学习率有助于精细调整模型参数。

最优超参数的寻找（树结构的Parzen估计器（Tree-structured Parzen Estimator, TPE））：

TPE是一种贝叶斯优化方法，用于寻找最佳超参数。不同于传统的网格搜索或随机搜索，TPE通过建立目标函数（如验证集上的损失）和超参数之间的概率模型，从而更有效地搜索超参数空间。TPE使用树结构来更快地找到可能导致更好性能的超参数区域。

性能评估指标：

（1）MAE (Mean Absolute Error, 平均绝对误差)

（2）RMSE (Root Mean Square Error, 均方根误差)

（3）MAPE (Mean Absolute Percentage Error, 平均绝对百分比误差)

计算（1）、（2）、（3）这类性能指标时，需要排除缺失值。

有以下几个原因：

1、数据的完整性：

缺失值意味着在该点上没有可用数据。在缺失数据的情况下进行计算会导致结果不准确，因为实际上是在对部分未知的数据进行运算。

2、统计准确性：

包含缺失值的计算可能会扭曲统计结果。例如，如果你在计算MAE时包括了缺失值，这可能会导致误差估计过低或过高，从而影响模型性能的准确评估。

3、异常值的影响：

在某些情况下，缺失值可能被错误地解释为极端值或异常值（比如将缺失编码为极大或极小的数）。这会在RMSE等对异常值敏感的指标中造成不必要的偏差。

消融实验

空间依赖性建模效果

对比DCRNN、DCRNN-NoConv、DCRNN-UniConv效果，其中DCRNN-NoConv用单位矩阵代替扩散卷积中的转移矩阵来忽略空间依赖性建模，DCRNN-UniConv仅使用前向随机游走转移矩阵进行扩散卷积。实验结果表明DCRNN取得优异的性能，其双向随机游走是有效的，能够捕捉上下游交通的影响。
研究图结构对性能的影响，构建无向图，其中W为新的对称加权矩阵，开发出变体GCRNN，并与DCRNN进行对比，实验结果显示DCRNN的性能更好。
随机游走步数K与每层的“单元数”对模型性能的影响。“K”指的是神经网络中滤波器（或卷积核）的接收域大小，这可以理解为滤波器覆盖的输入数据的区域或范围。在空间依赖性的上下文中，这意味着滤波器可以处理和整合来自输入数据更广泛区域的信息。而“单元数”则指的是网络中滤波器的数量，这决定了网络可以学习的特征或模式的多样性。

时间依赖性建模效果

评估时序建模效果，包括序列对序列框架和预定采样机制，设计了三个变体，DCNN、DCRNN-SEQ、DCRNN。

DCNN（扩散卷积神经网络）：首先将历史观测数据（例如，过去几个时间点的交通速度）串联成一个固定长度的向量，这个向量包含了时间序列数据的历史信息，随后向量被输入到多个扩散卷积层中。在这些层中，数据通过模拟扩散过程在图上的传播进行处理，用来预测未来时序序列。训练单一模型进行一步预测，一旦模型被训练完成，便可以用来多步预测，将之前的预测作为输入数据输入到模型中，预测下一步输出。
DCRNN-SEQ：使用编解码的Seq2Seq框架进行未来的多步预测。

实验结果表明了时间依赖性建模和预定采样技术的重要性。