正则化对时间序列预测RNN模型的影响:以COVID-19为例

最新推荐文章于 2022-03-13 15:22:15 发布

人工智能学术前沿（真)

最新推荐文章于 2022-03-13 15:22:15 发布

阅读量528

点赞数

文章标签：神经网络深度学习机器学习数据挖掘

本文链接：https://blog.csdn.net/zzh1464501547/article/details/118091375

版权

[Submitted on 9 May 2021]

关注人工智能学术前沿回复：ts24

5秒免费获取论文pdf文档，及项目源码

摘要

提出预测COVID-19大流行过程模型的研究论文，要么使用手工的统计学模型，要么使用大型神经网络模型。尽管大型神经网络比简单的统计模型更强大，但在小数据集上训练它们尤其困难。本文不仅提出了一种比其他神经网络具有更大灵活性的模型，而且提出了一种适用于较小数据集的模型。为了提高小数据的性能，我们测试了六种正则化方法。结果表明，GRU与20% Dropout结合的RMSE分数最低。主要的发现是，较少访问数据的模型更依赖于正则化器。将Dropout应用于仅接受了28天数据训练的GRU模型，RMSE降低了23%。

关键词: COVID-19, time series forecasting, recurrent neural networks, LASSO,Ridge regression, ElasticNet, Dropout

1.介绍

关键问题

朴素时间序列模型往往优于复杂时间序列模型。简单的统计模型的主要问题是，即使它们的性能可能更好，它们也不能适用于多个地点。为模拟新国家新冠肺炎大流行，必须建立新的模式。

另一方面，神经网络擅长泛化数据集。这意味着神经网络可以从一个国家的数据中学习，并在预测另一个地点时插入这些数据。问题是，已经提出的大多数神经网络模型都是庞大的，深度学习需要更大的数据集，而且似乎没有一个模型能够利用其泛化能力。从本质上说，所有的神经网络模型都和统计模型一样灵活，但缺乏它们的简单性。

研究内容

约翰霍普金斯大学提供的数据包含了187个不同地点的多个多元时间序列数据。这些地点大多是国家;然而，一些游轮也被包括在内。为了利用单一模型对所有可用位置进行预测，提出了一种多输出RNN模型。此外，正则化方法在RNN上应用和测试，试图提高在小数据集上的性能。

研究结果

正则化方法是在训练过程中增加额外的惩罚，缩小模型的权重，迫使它学习更抽象的函数。正则化模型对有噪声的数据更有鲁棒性，且不易对训练样本进行过拟合。

结果表明，在模型上应用正则化方法降低了预测的均方根误差，且在较少的数据上训练时，模型更依赖正则化方法。换句话说，在更大的数据集上训练的RNN模型不需要正则化器，应用正则化器甚至会损害性能。

该实验的代码可以在：

https://github.com/marcusCarpenter97/COVID-19-forecasting

关注人工智能学术前沿回复：ts24

5秒免费获取论文pdf文档，及项目源码

2.研究现状

根据模型类型和模型复杂性对统计模型进行研究。根据神经网络的规模和复杂性以及该模型概括数据的能力来评估神经网络模型。

传统的模型包括数学模型、统计学模型和简单的机器学习模型。这些更简单的模型的一个主要限制是它们必须对单个时间序列进行拟合。因此，简单的模型不具备同时对多个地点进行预测的灵活性。

手工制作的数学模型包括多项式[10]和Logistic增长[6]。还使用了来自流行病学的隔间模型，包括SEIR[1]和SIR[3]。更复杂的统计模型，如高斯过程回归[7]和ARMA[8]，也已成功应用于COVID-19的预测。Rustam等[11]表明指数平滑优于支持向量机，进一步证明了简单模型优于复杂模型。

多层感知器(MLP)用于预测COVID-19感染趋势。Wieczorek等人通过[13]训练了一个超过3300个时代的8层MLP来对多个优化算法进行基准测试。考虑到一次只能预测30个地点，这是一个相当大的模型。Hazarika等[4]创建了小波耦合随机向量函数链接网络(WCRVFL)。该模型是一种集成小波变换用于信号处理的MLP，在这种情况下是一个时间序列。他们的实验只集中在五个受灾最严重的国家，他们的预测时间跨度为60天。然而，这60天是在文章发表时的未来，因此无法验证预测的质量，因为在撰写本文时数据还不存在。

文献中使用的是RNN，主要是其变体长短时记忆(Long Short Term Memory, LSTM)。Shastri等人研究了LSTM及其变体。他们的实验表明，在所有其他模型中，ConvLSTM达到了最低的平均绝对百分比误差(MAPE)。对于包含0的数据集，MAPE不是一个合适的误差度量，而约翰霍普金斯大学的数据却包含0。预测只针对印度和美国。Zeroual等[14]不仅在LSTM上进行了实验，还包括RNN、GRU和变分自编码器(Variational AutoEncoder, VAE)。这些模型接受了1000个纪元的训练，并利用17天的预测时间对6个国家进行了预测。采用最小均方误差模型(RMSE)来衡量预测效果，并确定VAE模型为最佳模型。

3.模型概述

该模型采用多输出编码器-解码器体系结构。图1说明了模型的总体架构。

图1:该模型将每个国家的位置ID和一个多变量时间序列作为输入。ID由单个线性节点进行仿射变换，时间序列由RNN层进行处理。这两个的输出连接到一个上下文，然后由完全连接的节点的三个独立分支处理该上下文。每个分支专门处理数据中的一个特性。

编码器接受两个输入:位置的时间序列数据及其唯一标识符。时间序列由RNN层处理。前6个字符是从位置名称的SHA-256散列中提取的，用作该特定位置的惟一标识符。该标识符允许模型更好地区分不同的时间序列;然而，Wieczorek等人表示，[13]的实验要获得成功，这并不是必须的。该标识符通过一个线性节点进行仿射变换。通过连接RNN和线性节点的输出来创建上下文。

解码器由三个分支组成。每个分支由一层线性节点构成，节点数与预测视界的天数相同，此时为28天。输出的这种分支使得模型不仅可以针对每个特性进行优化，还可以针对预测范围内的每一天进行优化。

4.实验概述

正则化

LASSO (L1)和Ridge回归(L2)对模型的损失函数施加了额外的惩罚。这种对损失函数的额外惩罚迫使神经网络的权值在训练期间收缩，有效地作为一个特征选择[9]。通过将两个惩罚因子[15]相加，可以将这两个正则化器组合成所谓的ElasticNet。ElasticNet带来的主要改进是，L2方法防止L1形式将权值缩小到零。神经网络中的稀疏权矩阵会导致许多连接失效。

方程2和3显示L1和L2， λ是惩罚因子的超参数。

另一方面，Dropout是一种正则化方法，通过停用随机选择的节点来有意地使权矩阵稀疏。然而，这只发生在训练过程中，并且在测试期间所有节点都是完全功能的。以百分比方式选择未激活节点数。当使用Dropout时，模型被迫学习一个更通用的函数来弥补额外节点[5]的不足。

实验结果

表1:实验中使用的正则化器的不同组合。请注意，ElasticNet被标记为L1L2, No reg表示一个没有任何正则化应用的标准模型。

总结

许多神经网络模型已被用于预测COVID-19感染趋势。然而，深度学习需要大量数据，大流行的时间序列相对较小，这一事实往往被忽视。有人提出了一种规范化的GRU，即使对28天的时间序列进行训练，它也能做出准确的预测。从结果可以得出结论，当使用RNN进行时间序列预测时，正则化可以大大提高性能。然而，这只是在小数据集上的情况，当正则化应用于较大的时间序列时，预测精度会下降。

人工智能学术前沿（真)

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫