【AI气象1】Rainformer: Features Extraction Balanced Networkfor Radar-Based Precipitation Nowcasting

小春shi

已于 2024-08-28 15:01:32 修改

阅读量548

点赞数 1

文章标签：论文阅读

于 2023-08-31 17:00:36 首次发布

本文链接：https://blog.csdn.net/weixin_51473374/article/details/132580221

版权

0. 论文基本信息

1. Paper:论文pdf地址链接

2. Code:GitHub - Zjut-MultimediaPlus/Rainformer: Pytorch implementation code of Rainformer

3. [引用] C. Bai, F. Sun, J. Zhang, Y. Song and S. Chen, "Rainformer: Features Extraction Balanced Network for Radar-Based Precipitation Nowcasting," in IEEE Geoscience and Remote Sensing Letters, vol. 19, pp. 1-5, 2022, Art no. 4023305, doi: 10.1109/LGRS.2022.3162882.

4. 摘要—降水短临预报是自然灾害研究中的基本挑战之一。高强度降雨，尤其是暴雨，会导致人们财产的巨大损失。现有方法通常利用卷积操作提取降雨特征，并增加网络深度以扩展感受野以获得虚假的全局特征。虽然这种方案简单，但只能提取局部降雨特征，导致对高强度降雨不敏感。本信件提出了一种名为Rainformer的新型降水短临预报框架，其中提出了两个实用组件：全局特征提取单元和门控融合单元（Gate Fusion Unit, GFU）。前者依赖于基于窗口的多头自注意（Window-based Multi-head Self-attention, W-MSA）机制，提供了强大的全局特征学习能力，而后者提供了局部和全局特征的平衡融合。Rainformer具有简单而高效的架构，并显著提高了降雨预测的准确性，尤其是对高强度降雨。它为实际应用提供了潜在解决方案。实验结果表明，Rainformer在基准数据库上优于七种最先进的方法，并为高强度降雨预测任务提供了更多见解。

5. 关键词—特征融合、全局特征、高强度降雨、局部特征、降水短临预报。

6. IEEE Geoscience and Remote Sensing Letters（Journal Citation Reports，JCR三区）

1. 背景介绍

降水短临预报任务是气象研究中的基本挑战之一，其旨在利用特定气象信息预测未来0-2小时内的降雨强度。与人类生活密切相关，具有广泛的应用范围。

降水短临预报方法可以粗略地分为数值天气预报（Numerical Weather Prediction, NWP）和基于雷达外推的方法。NWP依赖大量复杂的气象数据作为输入数据，并需要昂贵的计算资源。在这一点上，基于雷达外推的方法可能是一个不错的选择。它不需要其他气象信息，只使用几个雷达地图/帧来预测未来的雷达地图。

最近，卷积循环神经网络（Convolutional Recurrent Neural Networks, ConvRNNs）在气象研究以及基于雷达外推的降水短临预报任务中取得了令人期待的结果。根据我们的了解，卷积长短时记忆（Convolutional Long Short-term Memory, ConvLSTM）是第一个应用于降水短临预报领域的ConvRNN方法。由于长短时记忆（Long Short-term Memory, LSTM）的结构，基于ConvRNN的方法可以记忆过去的信息并有效捕捉降雨的运动趋势和降雨强度变化。尽管许多先前的工作优于传统算法，但仍存在一些问题。

A. 梯度爆炸的风险

一般来说，基于ConvRNN的方法具有复杂的单元，这会加剧梯度爆炸的可能性[7]。它可以严重阻碍正常的反向传播过程，几乎使模型无法挖掘降雨信息。虽然ConvRNN的其他变种，如ConvLSTM，可以缓解这个问题，但在网络更深和更复杂时仍会发生这种情况。

B. 对高强度降雨的忽视

现有的基于深度学习的方法更注重低至中等强度的降雨预测，但在高强度降雨的预测上可能会产生不令人满意的结果，即降雨强度大于5 mm/h[8]，这会导致人们财产的巨大损失。原因是基于ConvRNN的方法依赖卷积操作，而卷积操作的最关键特征是局部化。对于降水短临预报，局部化的直接影响是对高强度降雨不敏感。

为了解决上述问题，应该使用基于全卷积网络（Fully Convolution Network, FCNs）的模型作为骨干网络，以减轻梯度爆炸的风险，并提取更多全局降雨信息以更关注高强度降雨。为此，自注意力机制，正如在Transformer中使用的那样，进入了视野，因为它可以挖掘全局特征。全局特征由自注意力模块挖掘，因此从注意机制的角度来看，全局特征也是一种注意特征。注意特征更有可能集中在那些具有异常高值和小比例的区域，这些区域在降雨图中是高强度降雨区域，因为降雨数据存在极端不平衡。因此，全局特征可以聚焦在高强度降雨区域。

在上述背景下，我们提出了一种新的降水短临预报网络，名为Rainformer。它主要由特征提取平衡模块（Feature Extraction Balance Module, FEBM）构建，包括局部特征提取单元、全局特征提取单元和门控融合单元（GFU）。局部特征提取单元专注于提取低至中等降雨强度信息。全局特征提取单元基于基于窗口的多头自注意力（W-MSA），这是SwinTransformer的亮点[10]。此外，由于全局特征和局部特征之间存在自然的不平衡，我们提出了GFU以平衡地融合全局和局部特征。具体而言，GFU通过门控机制生成了用于局部和全局特征的两个遗忘矩阵。它减小了特征之间的数值差异，使其更容易融合。此外，由于我们不使用循环单元，梯度爆炸问题得到了极大的缓解。

据我们所知，所提出的Rainformer是第一个能够提取局部和全局特征的降水短临预报模型。总之，我们的主要贡献如下：

我们引入了一种名为Rainformer的新框架用于降水短临预报。它可以分别从雷达回波图中提取全局和局部特征，并平衡融合这两种特征，增强了模型对强降雨或暴雨的预测能力。
我们将自注意力引入特征提取过程中。因此，提取了更多的全局特征，对高强度降雨的预测产生了积极影响。
我们提出了一种名为GFU的新特征平衡融合机制。它解决了不同尺度特征之间的不平衡，并有效地提取了它们之间的互补信息。
所提出的Rainformer在广泛使用的基准数据库上远远优于七种最先进的方法，表现出色。

2. 方法论

A. 问题定义

我们将降水短临预报问题定义为一个序列到序列的问题。因此，输入数据和预测结果都是从雷达回波图转换而来的降雨图序列，分别用 $X$ 和 $\widehat{Y}$ 表示。 $\widehat{Y}$ 与 $X$ 具有相同的形状。具体来说， $X=\{x_1,x_2,...,x_N\}$ 是包含 $N$ 个雷达回波图 $x_i$ 的集合，每个图具有相同的大小。 $\widehat{Y}=\{\widehat{y_1},\widehat{y_2},...\widehat{y_M}\}$ 也包含 $M$ 个预测帧 $\widehat{y_i}$ 。在我们的提案中，我们将N和M设置为9。整个预测过程可以定义如下：

$\widehat{Y}=\Gamma (Y) \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (1)$

其中 $\Gamma$ 代表Rainformer。

B. Rainformer

Rainformer的整体网络架构如图1所示。Rainformer包括一个编码器（绿色框）和一个解码器（蓝色框）。它们都有四个阶段。随着阶段的深入，特征的大小变得更小。编码器和解码器都包括FEBM。FEBM在每个阶段增强了低到中等和高强度的降雨特征。FEBM的详细信息将在下一节介绍。

在编码器中，每个阶段都包含一个图块合并操作和一个FEBM。我们可以将 $\phi$ 视为FEBM，编码器中的过程可以表示为

$Fen_1=\phi (PM(X))\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (2)$

$Fen_i=\phi (PM(Fen_{i-1})),\ \ i\in\{2,3,4\} \ \ \ \ \ \ \ \ (3)$

其中 $Fen_1$ 和 $Fen_i$ 是从FEBM输出的特征， $X$ 表示输入数据，即雷达回波图的序列。 $i$ 表示阶段的编号， $PM$ 代表图块合并操作。

在解码器中，整个过程可以定义为

$Fen_4=\phi (cat(Fen_3, PE(Fen_4)))\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (4)$

$Fen_i=\phi (cat(Fen_{i-1}, PE(Fde_{i+1}))),\ \ i\in\{2,3\} \ \ \ \ \ \ \ \ (5)$

$Fde_1=\phi (PE(Fde_2))\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (6)$

其中 $Fen_4$ 、 $Fen_i$ 和 $Fde_1$ 是解码器中每个阶段的输出特征，PE代表图块扩展操作。

图块合并或图块扩展是一种常见的下采样或上采样操作。例如，假设当前的特征大小为（288, 288, 1），其中三个通道分别表示高度、宽度和通道数。因此，总像素数为 288 x 288 = 82,944。在减小高度和宽度两倍后，通过图块合并，特征的大小变为（144, 144, 4）。但像素的数量仍然是 144 x 144 x 4 = 82,944。图块合并具有无损下采样的功能，因为像素数没有减少。图块扩展也是相同的。

解码器中的第2到第4个阶段比编码器中的阶段多一个连接操作。这个操作允许来自编码器的特征无阻碍地传递到解码器。

C. 特征提取平衡模块（FEBM）

我们打算通过使用全局特征来增强模型对高强度降雨的敏感性。对于基于ConvRNNs或FCN的方法，简单地通过堆叠卷积层来扩展感受野会降低最终性能，因为存在梯度爆炸的风险。相反，我们使用基于自注意力的技术从输入雷达回波图中提取全局信息。因此，我们提出了一个新颖的FEBM，包括局部特征提取单元、全局特征提取单元和用于平衡两种不同尺度特征的GFU。

在预测降雨强度时，除了全局特征之外，局部特征也很重要。因此，受到FCNs和注意模块在信息提取方面的成功启发，我们设计了一个局部特征提取单元，如图1左下角所示。该单元可以充分从降雨信息中提取局部特征，有助于低到中等降雨强度的预测。具体来说，我们的局部特征提取单元主要由卷积块和注意机制组成。后者由通道注意力和空间注意力模块共同构成，即CASA，也被称为CBAM [11]。

全局特征提取单元基于偏移窗口的多头自注意力（SW-MSA）和W-MSA。全局特征提取单元将输入特征分成几个块。每个块根据传统的自注意力算法计算注意力图。然而，这些注意力图仍然是局部的。然后，每个块都被移动，以使独立的块具有重叠部分。再次计算注意力图后，这些图覆盖了不同以前的局部区域，用于全局信息挖掘。

D. 门控融合单元（GFU）

我们发现，通过简单的加法或乘法将局部和全局特征融合并不高效。这些方法将局部和全局特征视为相同，并忽视了局部特征关注低到中等强度降雨的事实，而全局特征更关注高强度降雨。为了解决这个问题，我们提出了一个GFU。

如图1所示，整个计算过程可以表示为

$Z,R=split(\sigma (Conv(cat(l,g)))) \ \ \ \ \ \ \ \ \ \ \ \ \ (7)$

$out=Conv(g)*Z + Conv(l)*R \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (8)$

其中 $l$ 和 $g$ 代表局部特征和全局特征，Z和R是对应于全局和局部特征的遗忘矩阵。 $Z$ 和 $R$ 的值在0和1之间，类似于门控机制。它将需要遗忘或忽略的内容置空，并保留需要记住的内容。

GFU通过上述的门控机制来约束局部和全局特征，大大减轻了数值差异，并避免了由于它们之间的显著差异而线性融合无法发挥作用的问题。我们使用这样的门控算法，实现了特征自动平衡融合。

3. 实验

A. 数据集

我们的模型和其他最新方法（SOTAs）都是在由荷兰皇家气象研究所（Koninklijk Nederlands Meteorologisch Instituut，KNMI）在荷兰乌得勒支提出的降水短临预报基准数据集上进行训练和测试的，并根据[16]进行预处理。该数据集包含荷兰地区每5分钟间隔的4,200,000个降雨图。训练集中包含5734个帧序列，测试集中包含1557个序列。我们从默认的训练集中选择了4000个序列作为训练集，剩下的1734个作为验证集。每个序列包括18帧，大小为288×288像素。模型的输入使用九帧序列，另外的九帧作为基准真实数据（Ground Truth, GT），用于与模型的预测结果进行比较。

B. 实现细节

Rainformer在配备NVIDIA RTX A6000 GPU的工作站上使用PyTorch进行实现。我们将初始学习率设置为0.0001，并使用Adam优化器进行随机梯度下降。我们使用一个包含16个序列的小批量。平衡平均绝对误差（Balance Mean Absolute Error, B-MAE）被用作验证损失函数。在训练阶段，当验证损失不再下降时，选择验证损失最小的模型作为经过训练的模型用于预测。

C. 评估指标

为了全面评估，我们采用了四个指标。关键成功指数（Critical Success Index, CSI）测量了观测和/或预测事件中被正确预测的比例。Heidke技能评分（Heidke Skill Score, HSS）[17]衡量了达到与制造虚假警报的比率之间的比值。对于降雨图的CSI和HSS评估，我们遵循[18]的定义，将0.5、2、5、10、30 mm/h作为特定的阈值。B-MSE和B-MAE [18]关注预测结果与基准真实数据之间的相似性。

D. 与SOTAs的比较

Rainformer与KNMI数据集上的SOTAs进行了比较，如表I所示。最佳性能以粗体突出显示。为了便于比较，将 $r\geq 10$ 的结果乘以10，将 $r\geq 30$ 的结果乘以100 [19]。与其他SOTAs相比，Rainformer在四个评估指标上均取得了最佳性能。特别是，所提出的Rainformer在降雨预测中的CSI和HSS方面，分别比第二名的网络伪流空间时间（Pseudo Flow Spatiotemporal, PFST）高出2.87倍和2.65倍。

我们还在图2中提供了关于不同预测间隔的所有指标的图表。这些图表显示，我们的方法在大多数预测间隔上都具有最佳的预测结果。特别是在暴雨预测中，我们的方法在25分钟之前优于其他方法，而在25分钟后，所有方法都不再能够进行暴雨预测。

为了进一步直观地展示Rainformer对高强度降雨的预测能力，我们在图3中随机选择了一个可视化示例。Rainformer具有强大的预测高强度降雨的能力，远远优于其他SOTAs。我们在图中为每个图像添加了高强度降雨 $(r\geq 5,10,30)$ 预测的CSI和HSS。数据显示，虽然对于所有模型的预测图像在视觉上几乎没有差异，但预测的准确性仍然存在显著差异。

E. 消融实验和分析

在本节中，我们将通过割离实验探讨Rainformer中各组件的影响。

特征提取平衡模块（FEBM）：为了观察FEBM提取的全局特征和局部特征对性能的影响，我们比较了不包含全局特征提取单元（记为Rainformer-L）和不包含局部特征提取单元（记为Rainformer-G）的FEBM的结果。如表I所示，当 $r\geq 5$ 、 $r\geq 10$ 或 $r\geq 30$ 时，Rainformer-G优于Rainformer-L，而当 $r\geq 0.5$ 或 $r\geq 2$ 时，这种优势不太明显。因此，我们可以说全局特征提取单元更关注高强度降雨，而局部特征提取单元对高强度降雨不敏感。此外，通过FEBM融合这两种不同特征后，所有指标均有所提高，这也证明了所提出的FEBM的有效性。
门控融合单元（GFU）：为了证明GFU的有效性，我们将没有GFU的Rainformer的结果（标记为Rainformer-N）与完整的Rainformer进行比较。在Rainformer-N中融合局部和全局特征的方式是将它们相加。结果如表I所示，除了CSI中的轻雨外，Rainformer在所有指标上优于Rainformer-N。因此，我们可以说GFU可以平衡局部和全局特征的融合，并显著提高了预测性能。

4.结论

在本letter中，我们提出了一种基于FCN和自注意机制的降水短临预报框架，称为Rainformer，该框架具有平衡融合特征。实验结果表明，Rainformer在高强度降雨预测方面具有强大的能力。此外，我们设计的GFU是有效的。Rainformer在基准数据集上表现出优越的性能，并得到了割离研究的支持。