TrajGRU降雨量预测: 一个基准和一个新的模型

最新推荐文章于 2025-04-30 14:03:16 发布

当交通遇上机器学习

最新推荐文章于 2025-04-30 14:03:16 发布

阅读量6.2k

点赞数 1

本文链接：https://blog.csdn.net/zuiyishihefang/article/details/106271375

版权

前面看过ConvLSTM的文章: 初识ConvLSTM, 这篇文章和ConvLSTM算是姊妹篇吧，先大概看看，后面有时间再仔细研读~

1、文章信息

《Deep Learning for Precipitation Nowcasting: A Benchmark and A New Model》。

施行健的另外一篇降水量预测论文。

2、摘要

ConvLSTM模型被证明在短时预测方面优于传统的方法，这表明深度学习模型在解决这一问题上有巨大的潜力。然而，基于ConvLSTM的模型中的卷积递归结构是位置不变的（location-invariant），而自然运动和变换(如旋转)通常是位置变化的(location variant)。此外，由于基于深度学习的降水临近预报是一个新兴领域，尚未建立明确的评价方案。针对这些问题，提出了一种新的降水临近预报模型和一个基准。具体来说，本文超越了ConvLSTM并提出了Trajectory GRU (TrajGRU)模型，该模型可以主动利用循环连接学习基于位置变化的结构。此外，文章还提供了一个基准，其中包括来自香港天文台的一个真实世界的大型数据集、一个新的training loss和一个促进未来研究和评估是否是state of the art的综合评估方案。

3、简介

降水临近预报是指利用雷达回波图1、雨量计等观测数据，结合数值天气预报(NWP)模型，对局部地区降水强度进行极短时间(如0-6小时)预报的问题。

文章作者提出的ConvLSTM模型使用卷积结构扩展了LSTM，结果表明 ConvLSTM具有更好的时空相关性捕获能力，预测精度高于既有模型。然而，尽管在这个方向上做出了开拓性的努力，这篇论文还是有一些不足之处。

首先，深度学习模型仅在包含97个雨天的相对较小的数据集上进行评估，仅比较0.5mm/h降雨率阈值下的临近预报技术得分。由于现实降水临近预报系统需要对暴雨等对社会造成更大威胁的强降水事件给予额外的关注，仅在0.5mm/h阈值(表示是否下雨)下的性能不足以体现算法的整体性能。事实上，降水临近预报领域的深度学习还处于起步阶段，如何评价模型以满足实际应用的需要还不明确。

其次，虽然ConvLSTM中使用的卷积递归结构在捕获时空相关性方面优于全连通递归结构FC-LSTM，但它不是最优的，还有改进的空间。对于旋转和缩放等运动模式，不同的空间位置和时间戳会导致连续帧的局部相关结构不同。因此，使用位置不变滤波器来表示这种位置变量关系的卷积是低效的。之前的研究尝试通过将一个递归神经网络(RNN)的输出从原始预测修改为输入的某个位置变量变换来解决这个问题，比如光流或动态局部滤波器。然而，通过修正递归结构本身来解决这一问题的研究并不多。

在本文中，我们通过提出降水临近预报的基准和新模型来解决这两个问题。

对于新的基准，我们建立了HKO-7数据集，该数据集包含2009年至2015年香港附近的雷达回波数据。由于雷达回波图在真实场景中是连续的，能够瞬时获取，因此临近预报算法可以采用在线学习的方法来动态地适应新的模式。为此，我们在基准测试中使用了两个测试协议:离线时只能使用一个固定的窗口前面的雷达回波地图，在线时可免费使用所有历史数据和在线学习算法。降水临近预报任务的另一个问题是不同降雨率阈值下降水事件的比例高度不平衡。降雨量较大的情况较少发生，但对现实世界的影响较大。因此，我们提出了平衡均方误差Balanced Mean Squared Error (B-MSE)和平衡平均绝对误差Balanced Mean Absolute Error (B-MAE)是用于训练和评估的度量方法，它们在计算MSE和MAE时为较重的降雨分配了更多的权重。结果表明，在多降雨率阈值下，损失函数的平衡变量比原损失函数更符合短时预报的整体性能。此外，我们的实验表明，训练与平衡损失函数是至关重要的深度学习模型，以在较高的降雨率阈值情况下取得良好的性能。

对于新的模型，我们提出了轨迹门控递归单元(TrajGRU)模型，该模型利用子网络在状态转换之前输出状态到状态的连接结构。TrajGRU允许沿着一些学习轨迹来聚合状态，因此比连接结构固定的Convolutional GRU (ConvGRU)更灵活。结果表明，TrajGRU的性能在一个合成的Moving MNIST++数据集和HKO-7数据集中优于ConvGRU, Dynamic Filter Network (DFN)，以及2D和3D卷积神经网络。

利用新的数据集、测试方案、训练损失函数和模型，我们对七个模型进行了广泛的评估，同时提供一个大型的降水临近预报基准。实验表明:(1)所有的深度学习模型都优于基于光流的模型; (2)TrajGRU在所有深度学习模型中整体性能最好; (3) 应用在线微调后，在在线设置下测试的模型始终优于在离线设置下测试的模型。据我们所知，这是针对降水临近预报问题的第一个深度学习模型的综合基准。此外，由于降水临近预报可以看作是一个视频预报问题，我们的工作第一次提供了证据和理由，证明在线学习可能在总体上有助于视频预报。

4、模型

在本节中，我们提出了降水临近预报的新模型。首先介绍了本文所采用的通用encoding-forecasting结构。然后，我们回顾了ConvGRU模型，提出了新的TrajGRU模型。

4.1 encoding-forecasting结构

我们采用了与ConvLSTM类似的公式，问题描述如下，利用前j个观测值预测后K步。

本文的encoding-forecasting结构首先将观测值输入到N层RNN中，得到N个RNN state：

然后基于这些编码得到的状态，利用另外一个N层的RNN网络获取预测值：

图1展示了网络结构，其中，n = 3; J = 2; K = 2。我们在神经网络之间插入了下采样层和上采样层downsample and upsample，这些层是通过带tride步长的convolution卷积和deconvolution反卷积来实现的。将预测网络的顺序颠倒，是因为高阶状态high-level state能够捕捉全局的时空表征，从而指导低阶状态low-level state的更新。此外，low-level state进一步影响预测。这种结构比之前的ConvLSTM结构更合理 (ConvLSTM并没有反向链接预测网络), 因为我们可以自由地在上面插入额外的RNN层，而不需要skip-connection来聚合底层信息。在这种一般的编码预测结构中，只要有状态张量，就可以选择任何类型的神经网络来代替RNN，如ConvGRU或我们新提出的TrajGRU。

4.2 Convolutional GRU

本文所采用的ConvGRU的主要计算公式如下:

4.3 Trajectory GRU

当用于获取时空相关性时，ConvGRU或者其他ConvRNNs等的不足在于所有位置的连接结构和权值都是固定的。卷积运算基本上是对输入应用一个位置不变的滤波器。如果输入都是0，重置门都是1，我们可以在一个特定的位置(i，j) t时刻，重写获取新状态的计算过程，具体如下:

当卷积的超参数固定时，邻域集合N对所有位置保持不变。然而，大多数运动模式对于不同的位置有不同的邻域集。例如，旋转和缩放会产生指向不同方向的不同角度的流场。因此，更合理的做法是使用基于位置变化的连接结构location-variant connection structure：

基于此，我们提出了TrajGRU，它使用当前输入和以前的状态在每个时间戳为每个位置生成本地邻域集。由于位置指数是离散的、不可微的，我们用一组连续的光流来表示它们“指标”。TrajGRU的主要公式如下:

这种结构的优点是,我们可以学习子网的连接拓扑通过学习参数γ。在我们的实验中,γ需要连接的Xt和Ht−1作为输入和固定是one-hidden-layer的卷积神经网络（5×5的kernel size和32个filter）。因此,γ只有少量的参数并增加几乎没有成本的整体计算量。与K×K state-to-state卷积的ConvGRU相比，由于L

如果L和K2(K方)相同，TrajGRU的参数数量也可以小于ConvGRU，TrajGRU模型能够更有效地使用这些参数。ConvGRU和TrajGRU的循环连接结构说明如图2所示。

最近，有研究在CNN中使用了类似的思想来扩展卷积运算。然而，他们提出的Active Convolution Unit (ACU)关注于图像领域，the need for location-variant filters is limited。我们的TrajGRU专注于视频，其中location-variant filters对于处理旋转等运动模式至关重要。此外，我们正在修改循环连接的结构，并测试了不同数量的链接，而改研究将链接数量固定为9。

5、Experiments on MovingMNIST++

此部分不作介绍。

6、降雨量预测的一个新的benchmark## 6.1 HKO-7 Dataset

这个数据是香港天文台提供的2009年到2015年降雨雷达图数据，图片是480*480的灰度图，812 天用于训练、50 天用于验证、131 天用于测试。

表2显示了数据集中不同降雨概率的分布。

6.2 评估方法

随着雷达回波图实时获取，临近预报算法可以应用在线学习来适应新出现的时空模式。我们在评估方案中提出两种设置:(1)离线设置，算法始终接收5帧作为输入，提前预测20帧; (2)在线设置，算法依次接收长度为5的片段，每接收一个新片段，提前预测20帧。评估方案在附录中有更系统的描述。测试环境保证在脱机和联机设置中测试相同的序列集，以便进行公平的比较。

7、总结

在本文中，我们提供了降水临近预报的第一个大规模基准，并提出了一种新的具有学习循环连接结构能力的TrajGRU模型。我们已经证明TrajGRU比ConvGRU更有效地捕捉时空相关性。在未来的工作中，我们计划测试TrajGRU是否有助于改善其他时空学习任务，如视觉对象跟踪和视频分割。我们也将尝试使用提出的算法建立一个临近预报系统。

Attention

如果你和我一样是轨道交通、道路交通、城市规划相关领域的，可以加微信：Dr_JinleiZhang，备注“进群”，加入交通大数据交流群！希望我们共同进步！