基于深度学习体系结构的时间序列预测研究综述

基于深度学习体系结构的时间序列预测研究综述

[Submitted on 22 Mar 2021 (v1), last revised 8 Apr 2021 (this version, v2)]

关注人工智能学术前沿 回复 :ts25

5秒免费获取论文pdf文档,及项目源码

摘要

近年来,深度学习技术在许多机器学习任务中表现优于传统模型。深度神经网络已成功地应用于时间序列预测问题,这是数据挖掘中的一个非常重要的课题。他们已经被证明是一个有效的解决方案,因为他们的能力自动学习时间序列的时间相关性。然而,选择最方便的深度神经网络及其参数化是一项复杂的任务,需要大量的专业知识。因此,现有体系结构对不同预测任务的适用性有待深入研究。在这项工作中,我们面临两个主要的挑战:全面回顾利用深度学习进行时间序列预测的最新研究成果;并对最流行的框架进行了性能比较的实验研究

在对比中,深入分析了七种深度学习模型的准确性和效率。在许多不同的体系结构配置和训练超参数下,我们评估了所提出的模型获得的结果的排名和分布。使用的数据集包括超过50000个时间序列,分为12个不同的预测问题。通过在这些数据上训练超过38000个模型,我们为时间序列预测提供了最广泛的深度学习研究。研究结果表明,长短时记忆(long - short memory, LSTM)和卷积网络(convolutional networks, CNN)是最佳的预测模型,其中LSTM的预测准确率最高。在不同的参数配置下,CNN以更少的结果可变性实现了类似的性能,同时也更高效。

1.介绍

时间序列预测(TSF)在许多具有时间成分的现实问题中起着关键作用。通过TSF预测未来是天气、能源消耗、金融指标、零售、医疗监测、异常检测、交通预测等诸多领域的重要研究课题。时间序列数据具有独特的特征,其中的观测结果具有时间顺序,这往往使其分析成为一项具有挑战性的任务。由于其复杂性,TSF是数据挖掘中至关重要的一个领域。TSF模型需要考虑几个问题,如序列的趋势和季节变化,观测值之间的相关性在时间上是接近的。因此,在过去的几十年里,研究人员致力于因此,在过去的几十年里,研究人员致力于开发专门的模型来捕捉时间序列的基本模式,以便能够有效地推断出未来。

近年来,使用深度学习(DL)技术已成为最受欢迎的方法对许多机器学习问题,包括TSF.8与古典statistical-based只能模型线性关系数据模型,深层神经网络显示巨大的潜力interactions.9映射复杂的非线性特性现代神经系统的成功是建立在其深层结构上的,它们堆叠了好几层,并紧密地连接了大量的神经元。过去几年计算能力的提高使得创建更深层次的模型成为可能,与浅层网络相比,这大大提高了它们的学习能力。因此,深度学习技术可以被理解为一项大规模的优化任务:类似于一个简单的问题,但由于其规模而复杂。此外,它们在没有任何预先假设的情况下直接适应数据的能力在处理关于时间序列的少量信息时提供了显著的优势随着数据可用性的增加,越来越复杂的深度学习体系结构已经被提出,在预测性能方面有了实质性的改进然而,现在比以往任何时候都需要对TSF文献提供全面的分析,以便更好地理解该领域的科学进展。

在本工作中,对现有的TSF深度学习技术进行了全面的回顾。现有的方法要么只关注特定类型的深度学习架构,要么关注特定的数据场景。因此,在本研究中,我们的目标是通过提供一个更完整的分析DL在TSF中的成功应用来填补这一空白。修订的文献包括来自不同TSF域的研究,考虑到所有最流行的DL架构(多层感知器、递归和卷积)。此外,我们还对这些体系结构进行了全面的实验比较。我们研究了7种类型的DL模型的性能:多层感知器,Elman循环,长短期记忆,回声状态神经网络,门通循环单元,时间卷积网络。为了评估这些模型,我们使用了来自金融、能源、交通或旅游等不同领域的12个公开数据集。我们比较了这些模型的精度和效率,分析了不同超参数配置下得到的结果的分布。每个数据集总共测试了6432个模型,涵盖了大量可能的架构和训练参数。

开发专门的模型来捕捉时间序列的基本模式,以便能够有效地推断出未来。

由于文献中新颖的DL方法往往与经典模型相比较,而不是其他的DL技术,本实验研究旨在为今后的研究提供一个通用的、可靠的基准来进行比较。据我们所知,这项工作是第一次评估所有最相关类型的深度神经网络在大量不同领域的TSF问题上的性能。在这项工作中,我们的目标是评估可以直接适用于一般预测任务的标准DL网络,而不考虑为特定问题设计的精细架构。提出的用于比较的体系结构是独立于领域的,旨在为研究人员提供关于如何处理预测问题的一般指导方针。

综上所述,本文的主要贡献如下:

1.根据最近的研究,关于TSF最相关的DL技术的最新详尽综述。

2.在大量不同性质的数据集上评估几种DL架构性能的比较分析。

3.一个开源的TSF深度学习框架,实现了提出的模型。

2.实验概述

深度学习模型

在本研究中,我们根据现有文献综述了最相关的DL网络类型,可分为三类:

1.全连接神经网络。
——MLP:多层感知器

2.循环神经网络

——ERNN:Elman递归神经网络。
——LSTM:长短时记忆网络。
——ESN:回声状态网络。
——GRU:门控循环单位网络。

3.卷积网络
——CNN:卷积神经网络。
——TCN:时间卷积网络。

表9所示。7种深度学习模型的结构配置参数网格。

数据集

表8所示。实验研究所用数据集。
列N、FH、M、M分别表示时间序列的个数、预测层位、最大长度和最小长度。

实验结果

图3。显示每种类型的模型在每个数据集上的WAPE精度结果分布的箱形图。红点表示平均WAPE,方框表示结果的四分位数,线段延伸表示其余的分布。


在图3中,我们对每个数据集使用所有不同的模型架构获得的结果分布进行了比较。在一些图中,ERNN分布被切割,以便更好地可视化其余的模型。乍一看,一些体系结构,如ERNN或TCN,对参数化更敏感,因为它们呈现更广泛的WAPE分布,相比于其他如CNN或MLP。一般来说,除了不是专门为处理时间序列而设计的MLP之外,其余的体系结构几乎在所有情况下都能获得与最佳模型相似的预测精度。通过观察模型的最小WAPE值可以看出这一点,它们彼此很接近。然而,在这个情节中,更重要的是分析达到这样的性能有多难。分布越广,越难找到最优超参数配置。从这个意义上讲,我们将在后面的统计分析中看到,CNN和LSTM是快速设计性能良好的模型的最合适的选择

表11给出了每个数据集上每种体系结构获得的最佳结果的更详细视图。正如预期的那样,MLP模型总体表现最差。MLP网络是一种简单的模型,可以作为与其他体系结构进行比较的有用基线。我们可以注意到,在12个数据集中,LSTM模型在4个中取得了最好的结果,在其余的数据集中,LSTM模型处于前3位,除了在Tourism中,LSTM仅比MLP排名第六。此外,我们还可以指出,GRU似乎是一种非常一致的技术,因为它获得了大多数数据集的最佳预测,在12个数据集中,有10个在前三个架构内。与GRU相似,TCN模型和ERNN模型在两个数据集上获得了最好的结果。然而,这两种架构更加不稳定,根据数据集观察到的结果非常不同。CNN在最佳结果方面表现出比TCN稍差的行为。然而,正如在箱线图中所看到的,当比较所有超参数配置的平均WAPE时,它优于TCN模型。最后,ESN是最糟糕的模型之一,在大多数数据集中排名第六,仅优于MLP.

总结

本实验研究的结论总结如下:

1.除MLP模型外,当参数化正确时,所有模型都能得到准确的预测。但模型的结果分布存在显著差异。这说明了找到最佳架构配置的重要性。

2.无论其隐藏块的深度如何,MLP网络都无法对时间序列数据的时间顺序进行建模,因此预测性能较差。

3.LSTM的WAPE结果最好,GRU次之。然而,CNN在WAPE的均值和标准差上优于它们。这表明卷积结构比循环模型更容易参数化。

4.CNN在速度/精度方面取得了最好的折衷,这使得它们比循环方法更适合实时应用。

LSTM网络以更少的堆叠层数获得更好的结果,这与GRU架构相反。在循环网络中,单元的数量并不重要,只有在回声状态网络模型中才证明返回完整序列是有用的。

5.CNN需要更多的堆叠层来提高准确性,但不需要使用maxpooling操作。对于tcn,推荐使用具有较大内核大小的单个块。

6.在训练超参数方面,我们发现较低的历史值和学习率对于这些深度学习模型是更好的选择。cnn在z-score归一化时表现更好,而LSTM建议采用min-max。

关注人工智能学术前沿 回复 :ts25

5秒免费获取论文pdf文档,及项目源码

  • 2
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值