翻译：AdaRNN:时间序列的自适应学习与预测：AdaRNN: Adaptive Learning and Forecasting for Time Series∗

yang15987

已于 2022-02-27 13:32:14 修改

阅读量2.7k

点赞数 3

文章标签：机器学习算法 transformer

于 2022-02-26 15:03:21 首次发布

原文链接：https://arxiv.org/pdf/2108.04443v2.pdf

版权

摘要

时间序列预测在现实生活中有着广泛的应用，但却是一项极具挑战性的任务。这是因为时间序列的统计特性可以随时间变化，导致分布在时间上发生变化，这在机器学习领域被称为分布移位问题。到目前为止，从分布转移的角度对时间序列进行建模还有待探索。在本文中，我们建立了时间序列预测的时间协变量移位(TCS)问题。我们提出了自适应rnn (AdaRNN)来解决TCS问题。AdaRNN由两个模块依次组成。第一个模块被称为时间分布表征，其目的是更好地表征时间序列中的分布信息。第二个模块称为时间分布匹配，其目的是减少时间序列中的分布失配，学习一种基于rnn的自适应时间序列预测模型。AdaRNN是一个具有灵活分布距离集成的通用框架。在人类活动识别、空气质量预测、家庭用电和财务分析方面的实验表明，AdaRNN在分类任务上的准确率比一些最先进的方法高出2.6%，在回归任务上的均方误差高出9.0%。我们还展示了时间分布匹配模块可以扩展到Transformer架构，以进一步提高其性能。

关键词：

时间序列多任务学习迁移学习

图1：非平稳时间序列中的时间协变量转移问题。原始时间序列数据(푥) 在现实中是多元的。每隔一段时间퐴, 퐵,퐶 而看不见的测试数据，分布是不同的：푃퐴(푥) ≠ 푃퐵 (푥) ≠ 푃퐶 (푥) ≠ 푃푇푒푠푡 (푥). 随着时间的推移，分布不断变化，如何建立准确的自适应模型？

1简介

时间序列（TS）数据自然出现在无数领域，包括财务分析[55]、医学分析[29]、天气状况预测[46]和可再生能源生产[5]。由于预测在工业、社会和科学应用中的重要性，预测是分析时间序列数据最受欢迎的任务之一（可以说也是最困难的任务）。例如，考虑到一个城市过去五天的历史空气质量数据，如何更准确地预测未来的空气质量？

在实际应用中，TS的统计特性随着时间的推移而变化是很自然的，即非平稳TS。多年来，为了非平稳TS建立可靠和准确的模型，人们进行了各种研究工作。传统方法，如隐马尔可夫模型（HMMs）[43]，动态贝叶斯网络[35]，卡尔曼滤波器[9]和其他统计模型（如ARIMA[19]）已经取得了很大进展。最近，递归神经网络（RNN）取得了更好的性能[37,46]。RNN对时间结构不做任何假设，可以在TS中发现高度非线性和复杂的依赖关系。

时间序列的非平稳性意味着数据分布随时间而变化。如图1所示，数据分布푃 (푥) 不同的时间间隔퐴, 퐵, 和퐶 哪里푥,푦 分别是样本和预测；特别是对于训练过程中看不到的测试数据，其分布也与训练数据不同，使得预测更加恶化。条件分布푃 (푦|푥), 然而，对于这种情况，通常认为是不变的，这在许多实际应用中是合理的。例如，在股票预测中，市场波动会改变财务因素，这是很自然的 (푃 (푥)), 而经济规律保持不变(푃 (푦|푥)). 由于分布转移问题违反了上述方法的基本I.I.D假设，因此上述方法的性能较差且泛化能力较差[22]是不可避免的结果。

不幸的是，从分布的角度对时间序列进行建模仍有待探索。这个问题的主要挑战在于两个方面。首先，如何描述数据中的分布，以最大限度地利用这些不同分布中的公共知识？第二，如何发明一种基于RNN的分布匹配算法，在捕获时间依赖性的同时最大限度地减少它们的分布差异？

在本文中，我们在图1中正式定义了时间协变量移位（TCS），这是一种更实用、更具挑战性的时间序列数据建模设置。基于我们对TCS的分析，我们提出了AdaRNN，这是一种学习精确自适应预测模型的新框架。AdaRNN由两个模块组成。首先，为了更好地描述TS中的分布信息，我们提出了一种时间分布描述（TDC）算法，将训练数据分割为퐾 受最大熵原理启发，分布差距大的最多样化的时期。在此基础上，我们提出了一种基于RNN模型的时间分布匹配（TDM）算法来动态减少分布发散。在活动识别、空气质量预测、家庭用电量和股价预测方面的实验表明，我们的AdaRNN在分类任务的准确性方面优于最先进的基线2.6%，在回归任务的RMSE方面优于最先进的基线9.0%。AdaRNN对RNN结构（即RNN、LSTM和GRU）和分布匹配距离（例如余弦距离、MMD[3]或对抗性差异[12]）都是不可知的。AdaRNN还可以扩展到Transformer架构，以进一步提高其性能。

综上所述，我们的主要贡献如下：

新问题：我们首次提出从分布的角度对时间序列建模，然后在非平稳时间序列中假设和表述时间协变量移位（TCS）问题，这是一个更现实、更具挑战性的问题。

通用框架：为了解决TCS问题，我们提出了一个通用框架AdaRNN，该框架通过提出时间分布特征和时间分布匹配算法来学习精确的自适应模型。

有效性：我们对人类活动识别、空气质量预测、家庭用电量和股价预测数据集进行了广泛的实验。结果表明，AdaRNN在分类和回归任务上都优于最先进的基线。

2.相关工作

2.1时间序列分析

时间序列分类或回归的传统方法包括基于距离的[13,32]、基于特征的[38]和集成方法[27]。基于距离的方法使用某种度量来测量原始序列数据（段）的距离和相似性，如欧几里德距离或动态时间包装（DTW）[20]。基于特征的方法依靠一组手动提取或学习的特征来捕获时间序列中的全局\局部模式。集成方法结合了多个弱分类器来提高模型的性能。

然而，在数据预处理和劳动密集型特征工程方面涉及大量工艺，使得这些方法难以处理大规模数据，而且对于更复杂的模式，性能也受到限制。递归神经网络（RNN）如选通递归单元（GRU）和长短时记忆（LSTM）由于能够自动提取高质量的特征并处理长期依赖性而广受欢迎。这些深层次的方法通过利用注意机制[23,33]或张量分解[40]来捕获序列之间的共享信息，从而解决TS分类或预测问题。另一个趋势是通过结合深度学习和状态空间模型来建模不确定性[37]。此外，一些方法[24,37,46]采用seq2seq模型进行多步预测。与那些基于统计观点的方法不同，我们的AdaRNN模型是从分布的角度建立的。最近，Transformers结构[45]被提出用于具有自我注意机制的序列学习。普通变压器可以很容易地修改用于时间序列预测，但它仍然无法用于分布匹配。

时间序列分割和聚类是两个与时间分布特征相似的主题。时间序列分割[6,28]旨在将时间序列分割成几个片段，用于发现潜在的模式；它主要使用变化点检测算法，包括滑动窗口、自底向上和自顶向下的方法。分割中的方法几乎没有利用分布匹配方案，不能适应我们的问题。另一方面，时间序列聚类[16,34]旨在发现由相似（分段）时间序列组成的不同组，这与我们的情况明显不同。

2.2分布匹配

当训练和测试数据来自不同的分布时，通常会采用一些域自适应（DA）算法来弥补它们的分布差距，以便学习域不变表示。DA经常执行实例重新加权或特征转移，以减少训练和测试数据中的分布差异[12、44、47、48、56]。与一般方法学中的DA类似，领域泛化（DG）[49]还学习了多个源领域上的领域不变模型，希望它能很好地泛化到目标领域[2,26,30]。DA和DG之间的唯一区别在于，DA假设测试数据可访问，而DG则不可访问。很明显，我们的问题设置与DA和DG不同。首先，DA和DG并不是为了描述时间分布而建立的，因为域在其问题中被赋予了先验知识。其次，大多数DA和DG方法都是使用CNN而不是RNN进行分类任务。因此，它们可能无法捕获时间序列中的长期时间依赖性。有几种方法将预训练应用于RNN[4,8,11,15,51]，这与基于CNN的预训练类似。

3问题表述

图2:AdaRNN的框架。

问题1(푟-超前预测）。给定一个时间序列푛 段D={x푖, Y푖 }푛푖=1，其中x푖 = {푥1.푖 , · · · , 푥푚푖푖 } ∈ R푝×푚푖 是 A.푝-可变长度段푚푖 1和y푖 = (푦1.푖 , . . . , 푦푐푖 ) ∈ R푐 是对应的标签。学习一个精确的预测模型M:x푖 → Y푖 关于未来푟 ∈ N+段{x的步骤2푗 }푛+푟푗=푛+1在同一个

在大多数现有的预测方法中，所有时间序列段{x푖 }푛+푟푖=1，假设遵循相同的数据分布；从所有标记的训练段学习的预测模型应该在未标记的测试段上表现良好。然而，这种假设太强，在许多实际应用中无法成立。在这项工作中，我们考虑一个更实际的问题设置：训练段和测试段的分布可以是不同的，并且训练段的分布也可以随着时间而改变，如图1所示。在下面，我们正式定义了我们的问题。

定义1（协变量移位[41]）。根据两个分布的训练和测试数据푃푡푟푎푖푛 （十），푦), 푃푡푒푠푡 （十），푦), 协变量转移指的是边际概率分布不同，条件分布相同的情况，即。，푃푡푟푎푖푛 （十）≠ 푃푡푒푠푡 （x），及푃푡푟푎푖푛 (푦|x） =푃푡푒푠푡 (푦|x）。

请注意，协变量移位的定义适用于非时间序列数据。现在，我们将其定义扩展为时间序列数据，如下所示，在这项工作中称为时间协变量移位（TCS）。

定义2（时间协变量转移）。给定时间序列数据D푛 标记段。假设它可以分为퐾 周期或间隔，即D={D1，···，D퐾 }, D在哪里푘 = {x푖, Y푖 }푛푘+1.푖=푛푘 +1.푛1=0和푛푘+1 = 푛. 时间协变量移位（TCS）指的是所有片段在同一时间段的情况푖 遵循相同的数据分布푃D푖 （十），푦), 而对于不同的时间段1≤ 푖 ≠ 푗 ≤ 퐾, 푃D푖 （十）≠ 푃D푗 （x）及푃D푖 (푦|x） =푃D푗 (푦|x）。

为了在TCS条件下学习具有良好泛化性能的预测模型，一个关键的研究问题是获取D不同时期之间共享的公共知识[22]。以股价预测为例。尽管经济因素(푃 (푥)) 随着市场的变化而变化（即不同时期的不同分布），一些常识，例如经济规律和模式(푃 (푦|푥)) 在不同时期，随着时间的推移，仍然可以利用这些数据进行精确预测。

然而，周期数퐾 在实践中，TCS下每个阶段的边界通常是未知的。因此，在设计模型以捕捉训练中不同时期的共性之前，我们需要首先通过比较其基础数据分布来发现这些时期，以便同一时期的片段遵循相同的数据分布。本文研究的问题的形式定义如下。

问题2(푟-步骤TS（TCS下的预测）。给定一个时间序列푛 具有相应标签的段，D={x푖, Y푖 }푛푖=1.培训。假设存在未知数量的퐾 时间序列中的基本时段，以便在同一时段中푖 遵循相同的数据分布푃D푖 （十），푦), 而对于不同的时间段1≤ 푖 ≠ 푗 ≤ 퐾, 푃D푖 （十）≠ 푃D푗 （x）及푃D푖 (푦|x） =푃D푗 (푦|x）。我们的目标是自动发现퐾 在训练时间序列数据期间，学习预测模型M:x푖 → Y푖 通过利用不同时间段之间的共性，从而对未来做出精确的预测푟 分段，D푡푠푡 = {x푗 }푛+푟푗=푛+1.这里我们假设测试段在同一时间段，푃D푡푠푡 （十）≠ 푃D푖 （x）及푃D푡푠푡 (푦|x） =푃D푖 (푦|x）任何一个≤ 푖 ≤ 퐾.

请注意，学习训练时间序列数据背后的周期具有挑战性，因为周期的数量和相应的边界都是未知的，而且搜索空间很大。然后，在确定了周期后，下一个挑战是如何学习一个好的可推广预测模型M，以便在未来的周期中使用。如果没有准确地发现周期，可能会影响最终预测模型的泛化性能。

4.我们提出的模型：阿达恩

在本节中，我们提出了我们提出的框架，称为自适应RNN（AdaRNN），以解决时间协变量移位问题。图2（a）描述了AdaRNN的概况。我们可以看到，它主要由两种新算法组成：

* 时间分布表征（TDC）：表征TS中的分布信息；

* 时间分布匹配（TDM）：匹配发现周期的分布，建立时间序列预测模型。

在给定训练数据的情况下，AdaRNN首先利用TDC将其划分为几个周期，这些周期充分描述了其分布信息。然后应用TDM模块进行周期间的分布匹配，建立广义预测模型M，最后利用学习到的M进行预测푟-根据新数据进行预测。

AdaRNN背后的基本原理如下。在TDC中，模型M预计将在最差的分布情况下工作，在这种情况下，不同时期之间的分布差距较大，因此可以通过最大化其差异性来确定最佳时期划分。在TDM中，M利用学习时间周期的公共知识，通过RNN将其分布与正则化项相匹配，以进行精确的未来预测。

4.1时间分布特征

基于最大熵原理[17]，通过寻找彼此最不相似的周期，可以最大限度地利用时间协变量变化下时间序列的共享知识，这也被认为是时间协变量转移的最坏情况，因为跨周期分布最为多样。因此，如图2（b）所示，TDC通过解决一个优化问题来实现拆分TS的目标，该优化问题的目标可表述为：

哪里푑 是距离度量，Δ1和Δ2是预定义的参数，以避免琐碎的解决方案（例如，非常小的值或非常大的值可能无法捕获分布信息），以及퐾0是避免过度拆分的超参数。度量푑 式（1）中的（·，·）可以是任何距离函数，例如欧几里德距离或编辑距离，或一些基于分布的距离/散度，如MMD[14]和KL散度。我们将介绍如何选择푑 （·，·）见第4.3节。

优化问题（1）的学习目标是通过搜索使平均周期分布距离最大化퐾 并对相应的周期进行分类，使每个周期的分布尽可能多样化，学习的预测模型具有更好的泛化能力。

我们用最大熵原理详细解释了（1）中的分裂方案。为什么我们需要最不同的时期而不是最相似的时期？据我所知，当对时间序列数据的分裂没有事先假设时，合理的做法是，每个时期的分布尽可能多样化，以最大化总分布的熵。这允许对未来的数据进行更通用、更灵活的建模。因此，由于我们没有在训练过程中看不到的测试数据的先验信息，因此在最坏的情况下训练模型更合理，可以使用不同的周期分布来模拟。如果模型能够从最坏的情况中学习在这种情况下，它对看不见的测试数据具有更好的泛化能力。这种假设也在时间序列模型的理论分析[22,31]中得到了验证，即多样性在TS建模中很重要。

一般来说，（1）中的时间序列分裂优化问题在计算上很难解决，可能没有封闭形式的解。然而，通过选择合适的距离度量，优化问题（1）可以用动态规划（DP）[36]来解决。在这项工作中，考虑到大规模数据的可扩展性和效率问题，我们采用贪婪算法来解决（1）。具体来说，为了高效计算和避免琐碎的解决方案，我们将时间序列平均分割为푁 = 10个部分，其中每个部分是不能再拆分的最小单位周期。然后，我们随机搜索퐾 在{2,3,5,7,10}中。鉴于퐾, 我们选择每段长度푛푗 基于贪婪的策略。表示时间序列的起点和终点퐴 和퐵, 分别地我们首先考虑퐾 = 2.选择1个拆分点（表示为퐶) 通过最大化分布距离从9个候选分裂点开始푑 (푆퐴퐶, 푆퐶퐵). 之后퐶 确定，我们考虑퐾 = 3并使用相同的策略选择另一个点퐷. 类似的策略适用于不同的价值观퐾. 我们的实验表明，该算法比随机分割能够选择更合适的周期。此外，它还表明퐾 非常大或非常小，预测模型的最终性能变差（第5.6.1节）。

4.2时间分布匹配

给定学习的时间段，TDM模块旨在通过匹配不同时间段的分布来学习不同时间段共享的公共知识。因此，与仅依赖局部或统计信息的方法相比，学习模型M有望在看不见的测试数据上得到很好的推广。

用于预测的TDM损失，L푝푟푒푑, 可表述为：

其中（x）푗 푖 , Y푗 푖 ) 表示푖-从周期D开始的第th个标记段푗 , ℓ （·，·）是一个损失函数，例如MSE损失，以及휃 表示可学习的模型参数

然而，极小化（2）只能从每个阶段学习预测知识，这不能减少不同阶段之间的分布差异，以利用公共知识。一个简单的解决方案是匹配每个周期对D中的分布푖 和D푗 通过采用一些流行的分布匹配距离(푑 （·，·））作为正则化子。在现有的关于域自适应的工作[12,42]之后，我们将分布匹配正则化项应用于RNN模型单元的最终输出，即通常在高层表示上执行分布匹配。形式上，我们使用H={H푡 }푉푡=1.∈ R푉 ×푞 表示푉 具有特征维数的RNN的隐藏状态푞. 然后，对一对（D）的最终隐藏态进行逐周期分布匹配푖, D푗 ) 可以表示为：

不幸的是，上述正则化项未能捕获RNN中每个隐藏状态的时间依赖性。由于每个隐藏状态只包含输入序列的部分分布信息，因此需要考虑RNN的每个隐藏状态，同时构造一个分布匹配正则化器，如下节所述。

4.2.1时间分布匹配。

如图2（c）所示，我们提出了时间分布匹配（TDM）模块，以自适应地匹配两个周期的RNN单元之间的分布，同时捕获时间相关性。TDM引入了重要性向量휶 ∈ R푉 了解푉 RNN中的隐藏状态，其中所有隐藏状态都使用规范化的휶 . 请注意，对于每对句点，都有一个휶 , 如果没有混淆，我们省略下标。这样，我们可以动态地减少跨周期的分布差异。

给定一个周期对（D푖, D푗 ), 时间分布匹配的损失公式如下：

哪里훼푡푖,푗 表示周期D之间的分布重要性푖 和D푗 在州立大学푡.

通过遵循标准的RNN计算，RNN的所有隐藏状态都可以很容易地计算出来。表示为훿 （·）基于前一个状态计算下一个隐藏状态。状态计算可以表示为

通过积分（2）和（3），时间分布匹配（一个RNN层）的最终目标是：

哪里휆 是一个折衷的超参数。注意，在第二项中，我们计算所有成对周期的分布距离的平均值。为了计算，我们取了一小批D푖 和D푗 在RNN层中执行正向操作并连接所有隐藏特征。然后，我们可以使用（5）执行TDM。

4.2.2基于Boosting的重要性评估。

我们提出了一种基于boosting的重要性评估算法휶 . 在此之前，我们首先对网络参数进行预训练휃 在所有期间使用完全标记的数据，即使用（2）。这是为了更好地学习隐藏状态表示，以便于学习휶 . 我们将预先训练的参数表示为휃0

具有휃0时，TDM使用基于boosting的[39]过程来学习隐藏状态的重要性。最初，对于每个RNN层，所有权重初始化为同一层中的相同值，即。，휶푖,푗 = {1\/푉 }푉 . 我们选择跨域分布距离作为提升的指标。如果历元的分布距离푛 + 1比epoch大푛, 我们增加了훼푡,(푛+1) 푖,푗 扩大其作用，减少分布差异。否则，我们将保持不变。这种提升表现为：

算法1 AdaRNN要求：时间序列数据集D，휆, 最大迭代次数퐼푡푒푟 1：通过求解（1）来执行时间分布特征化，以获得퐾 周期{D푖 }’s、 2：通过尽可能减少（2）的휆 = 03:用于迭代푖 = 1到퐼푡푒푟 : 4：了解휶 和휃 通过求解（5）并使用（6）5:End For 6:return最优参数휃 ∗, 휶 ∗.

是由不同学习阶段的分布匹配损失计算的更新函数。和푑푡,(푛) 푖,푗 = 퐷 （h）푡푖 , H푡푗 ; 훼푡,(푛) 푖,푗 ) 是时间步长上的分布距离푡 时代푛. 휎 （·）是S形函数。很容易看出这一点퐺 （·，·）>1，确保重要性的增加。与naive方法类似，我们将其规范化为훼푡,(푛+1) 푖,푗 = 훼푡,(푛+1) 푖,푗˝푉 푗=1.훼푡,(푛+1) 푖,푗 . 通过（3）和（6），我们可以了解휶 .

备注1。目标（3）定义在一个RNN层上，可以方便地在多个层上实现，以实现多层分布匹配。至于推理，我们只需使用最佳网络参数휃 ∗. 根据现有工作[26]，也可以有效地计算区域分布距离。

备注2。事实上，也有一种幼稚的获取方式휶 通过使用另一个权重为W的网络푖,푗 ∈ R2푞×푉 这需要（H푖, H푗 ) 作为输入和输出휶 . 例如，휶 可以作为휶푖,푗 = 푔（W）푖,푗 ⊙ [H]푖, H푗 ]⊤) 哪里푔 是一个激活和规范化功能⊙ 这就是要素生产。经过计算훼푖,푗 , 我们通过softmax函数对其进行规范化。不幸的是，由于两个原因，这种幼稚的方法在现实中不起作用。首先，自从휶푖,푗 和휃 是高度相关的，在早期训练阶段휃 没有那么有意义，这将导致对휶푖,푗 . 第二，学习这样的知识是昂贵的푖,푗 对于RNN模型中的每个域对。

4.3分布距离的计算

AdaRNN对RNN结构（普通RNN、LSTM和GRU）和分布距离（即功能）不可知푑 (·, ·). 从技术上讲푑 （·，·）在TDC和TDM中可以是相同的选择。我们采用了几种常用的距离：余弦距离、MMD[14]和对抗距离[12]。还请注意，TDC和TDM目前是控制计算复杂性的两个独立阶段。这两个阶段的端到端优化将是未来的工作。算法1给出了AdaRNN的完整过程。附录中给出了这些距离的详细实现。

5 实验

5.1设置

我们主要使用GRUs（选通循环单元）[7]作为基础RNN单元，以实现其在实际应用中的高性能3。我们在四个真实数据集中测试了AdaRNN，如表1所示。

我们将AdaRNN与四类方法进行比较：

表1：本文使用的数据集信息。

* 传统的TS建模方法，包括ARIMA[53]、FBProphet[10]、LightGBM和GRU[7]； *

* 最新的TS型号，包括LSTNet[23]和STRIPE[24]4；

* 变压器[45]通过移除其遮罩操作；

* 流行领域自适应\泛化方法的变体，我们将其表示为“-MMD-RNN”和“DANN-RNN”。

注意，比较主要是为了在使用TDC获得时间段后使用时间分布匹配的最终预测性能，TDC的评估见第5.6.1节。Transformer[45]最初被提议用于机器翻译。因此，我们通过以下实现5移除TS数据的掩码来修改它。我们使用4个编码器层和8个磁头，通过交叉验证进行自我关注调整，以确保它在数据集上实现最佳性能。现有的DA\/DG方法不能直接应用于我们的问题，因为它们大多数是用于基于CNN的分类任务。因此，我们使用它们的变体。具体来说，我们使用“MMD-RNN”来表示流行的基于MMD的方法，如MEDA[47,48]和MMD-AAE[26]。我们使用“DANN-RNN”来表示流行的领域对抗性训练方法，如RevGrad[12]和DAAN[52]。这两种距离在最近的DA和DG文献中被广泛采用。我们将它们的主干网络更改为与其他比较方法相同的RNN，然后将MMD或对抗距离添加到RNN层的最终输出中。

所有方法都使用相同的列车有效试验分割和TDC后的周期，最终结果在五次随机运行中取平均值。在验证集上优化超参数。请注意，为了平衡AdaRNN中的效率和性能，我们限制了퐾 在{2,3,5,7,10}中获得最佳周期分裂。我们在TDM中将训练前的时间设置为10个。我们使用不同的距离函数푑 主要结果基于MMD[14]。其他距离将在后面讨论。AdaRNN的代码位于https:\/\/github。com\/jindongwang\/transferlearning\/tree\/master\/code\/deep\/adarnn。

5.2人类活动识别

UCI智能手机活动[1]是用于分类任务的时间序列数据集。30名志愿者佩戴智能手机，在进行六种不同的活动（走路、上楼、下楼、坐、站和躺着）时记录加速计、陀螺仪和磁强计信号。我们使用7352个实例进行培训，2947个实例作为以下测试[1]。很明显，训练集和测试集具有不同的分布，并且由于不同的活动和用户，训练集中存在TCS。我们首先使用大小为128的滑动窗口对数据进行剪裁。由于每个实例有9个通道，我们将其视为一个长度为128且特征为9维的序列。对于这项任务，我们使用准确性、（ACC）、精确度（P）、召回率（R）、F1和曲线下面积（AUC）作为评估指标。

表2:UCI时间序列分类数据集的结果。

该网络由两层隐藏状态维数为32的GRU和一个输出为32的FC层组成푟 = 6.我们使用Adam optimizer进行优化，学习率为0.005，批量为64。我们开始휆 = 0.1. 在这个数据集上，我们没有运行最新的方法，比如LSTNet和STRIPE，以及FBProphet和ARIMA，因为它们是为回归任务构建的。由于我们没有获得良好的性能，所以没有对变压器进行比较。

表2显示了该分类任务的结果。很明显，AdaRNN在所有评估指标上都取得了最佳性能，其准确率和F1分数分别比基于对抗的DANN方法高出2.56%和3.07%。这意味着AdaRNN在非平稳时间序列分类任务中是有效的。

5.3空气质量预测

空气质量数据集[54]包含2013年3月至2017年2月从北京12个监测站收集的每小时空气质量信息。我们随机选择了四个监测站（东四、天坛、农樟关和定陵），并选择了六个特征（PM2.5、PM10、S02、NO2、CO和O3）。由于缺少一些数据，我们只需使用平均值填充空插槽。然后，在将数据集送入网络之前对其进行规范化，以将所有特征缩放到相同的范围。这个过程是通过最大最小标准化完成的，数据范围在0到1之间。

该网络由隐藏状态维数为64的两层GRU、包含两个FC层的两个瓶颈层和一个输出为64的FC层组成푟 = 1.我们开始휆 = 0.5. 我们使用Adam optimizer对所有模型进行优化，学习率为0.005，我们将批量大小设置为36。

表3给出了最后一列“Δ（%）”表示基线GRU平均增量的结果。可以看出，所提出的方法在所有四个站点中都取得了最佳效果。在RMSE降低方面，我们的AdaRNN显著优于强基线条纹[24]。

表3：空气质量预测结果（左）和家庭用电量预测结果（右）。

5.4家庭用电

该数据集[18]包含2006年12月16日至2010年11月26日期间收集的2075260个测量值，采样率为一分钟。它包含几个属性（全局有功功率、全局无功功率、电压、全局强度和三个子串）。在删除所有空数据后，我们得到了整个数据集的2062346个测量值。我们以6:2:2的比率构建了列车/有效列车/测试集，即2006年12月16日至2009年4月24日的列车数据和2010年2月25日至2010年11月26日的列车数据，其余为有效列车。我们使用连续5天的数据来预测第二天的数值。

该网络由两层GRU（维度设置为64）和两个瓶颈层（包含两个FC）组成层，以及输出为푟 = 1.我们开始휆 = 0.001. 我们使用Adam optimizer对所有模型进行优化，学习率为0.0005，批量大小为36。

表3右侧显示了使用不同方法预测家庭用电量的RMSE。同样，我们的AdaRNN实现了最佳性能。

5.5股价预测

我们在一个大型私人金融数据集上进一步评估了AdaRNN的表现，该数据集的任务是根据2007年1月至2019年12月的历史数据预测股票价格。该数据集包含280多万个样本，以360个财务因素为特征。我们使用2017年1月至2019年12月的数据作为测试集，2007年1月至2014年12月的数据作为训练集，其余数据作为验证集。我们使用信息系数（IC）和信息比率（IR）作为现有工作的评估指标[21]。这些指标的详细描述和计算见附录。

该网络由隐藏状态维数为64的两层GRU和包含一个FC层的两个瓶颈层以及一个输出为64的FC层组成푟 = 1.我们使用Adam optimizer对所有模型进行优化，学习率为0.0002，我们将批量大小设置为800，并且휆 = 0.5.

表4显示，我们提出的AdaRNN在所有指标上都优于其他比较方法。在获得最佳IC值的同时，其RankIC仍然可以高于其他方法。这意味着AdaRNN在实际应用中相对稳定。

表4：股价预测结果。

5.6股价研究

5.6.1时间分布特征。

为了评估TDC，我们设计了两个实验。首先，我们比较了实验结果퐾 = 2,3,5,7,10来分析퐾 在图3（a）中。我们看到性能会随着时间的增加而变化퐾 最好的结果是퐾 = 空气质量预测的两个站分别为3,5。那么，什么时候퐾 继续增加，性能下降。意思是퐾 在描述非平稳TS中的分布信息时非常重要。

其次，图3（b）显示了使用相同分布匹配方法的域分割算法的比较퐾 = 2.此处，“分割1”表示随机分割，“分割2”表示所有时段具有相似分布的分割（即刚好与TDC相反）。“距离”表示分布距离。结果表明，我们的TDC在最大分布距离的RMSE中实现了最佳性能。其他价值观的结果퐾 都是一样的。因此，重要的是，当分布最为多样时，我们将周期划分为最坏的情况。两个实验都表明，TDC可以有效地描述时间序列中的分布信息。使用其他距离对TDC的评估见附录。

图3：消融研究。（a）分析퐾 用于时间分布表征。（b）不同的域分割策略。（c）分布匹配中w.或w.\/o.自适应权重的比较。（d）时间分布匹配的有效性。

5.6.2时间分布匹配。

我们通过评估预训练和基于boosting方法的性能来分析TDM模块。我们比较了TDM的四种变体：（1）天真的方法（即学习）휶 如备注2所述，通过前馈层，w.\/o预培训，（2）增强w.\/o预培训（3）预培训+天真，（4）预培训+增强（我们的）。

图3（c）显示了两个站点的性能。我们观察到，训练前技巧有助于天真和基于激励的方法获得更好的表现。更重要的是，我们基于boosting的方法可以在预训练时获得最佳性能。与表3中的STRIPE方法相比，我们发现几乎所有四种TDM变体都可以获得比STRIPE更好的性能。我们还观察到，通过手动为每个隐藏状态设置相同的重要性，结果是不可比较的。总之，有必要考虑每个隐藏状态的重要性时，试图建立一个自适应RNN模型。

评估重要性向量휶 , 我们比较了图3（d）中有无重要向量的结果。结果表明，采用相同的分布距离，我们的AdaRNN可以获得最佳结果。这表明，在基于RNN的时间序列建模中，每个隐藏状态的不同分布对建模非常重要，我们的AdaRNN能够动态评估它们的重要性，以实现最佳性能。

5.7进一步分析

图4：（a）空气质量的多步预测。（b） TDM与不同站点的分布距离无关。（c）分布距离的变化。（d）收敛性分析。（e）训练时间。

5.7.1配送距离。

AdaRNN对分布距离是不可知的。在这里，我们通过使用四种不同的分布距离运行TDM来评估这一特性：MMD[3]、CORAL[42]、余弦和域对抗距离[12]。图4（a）显示了三个空气质量预测站的结果。结合表3的结果，我们观察到AdaRNN在实现最佳性能的同时，对分布距离的选择具有鲁棒性。此外，图4（b）显示，通过添加重要性权重휶 , 与MMD和对抗性训练相比，我们的AdaRNN实现了最低的分配距离。

5.7.2多步预测。

我们分析了AdaRNN的多步性能(푟 > 1）通过预测未来6、12、18、24小时的空气质量指数（相应的输出序列长度为6、12、18、24），预测空气质量并与条带[24]进行比较。图4（c）显示了一个站点的结果。我们发现，AdaRNN在多步预测方面取得了最好的性能。此外，随着预测步长的增加（6→ 12→ 18→ 24），所有方法的性能都变得越来越差，因为对较长的序列进行建模更加困难，而且还受到累积误差的影响。

5.7.3收敛性和时间复杂性分析。

我们通过在图4（d）中记录其预测和分布匹配的训练损失来分析AdaRNN的收敛性。我们发现，AdaRNN可以很容易地进行训练，并且收敛速度很快。另一方面，AdaRNN是基于自回归模型的RNN。因此，阿达恩花在训练上的时间比传统RNN。图4（e）显示了AdaRNN、GRU和STRIPE之间的训练时间比较[24]。我们看到，除了最佳性能外，AdaRNN的训练时间仍然与现有方法相当。AdaRNN的推理时间与现有基于RNN的模型相同，因为我们只需要计算公式（2）。

5.8案例研究：预测与地面真值

图5：预测与地面真相。

以东四站为例，我们在图5中显示了不同方法的预测与地面真值，其中红色圆圈表示坏情况。我们看到DANN和MMD的结果比我们的AdaRNN差，因为他们在很多方面的预测相对较差。特别是在图5（d）中，我们展示了每种方法的预测与基本事实之间的绝对差异。我们可以清楚地看到，我们的AdaRNN优于所有方法，错误更少。

6 扩展

除了基于RNN的模型外，在本节中，我们将自适应重要性权重添加到Transformer[45]模型中的每个隐藏表示中，在最新研究中，Transformer[45]模型声称比基于RNN的模型更强大。我们添加了重要性权重휶 每一个自我注意块和术语的表示，这个扩展为AdaTransformer。如表5所示，这项初步研究显示变压器中AdaRNN的功率。我们相信未来会有更多的改进。

表5：香草和自适应变压器的结果

7.结论和今后的工作

本文旨在研究非平稳时间序列中更现实、更具挑战性的时间协变量移位（TCS）问题。我们提出了AdaRNN框架来学习自适应RNN模型，以获得更好的泛化能力。AdaRNN由两种新算法组成：时间分布特征化算法用于描述TS中的分布信息，时间分布匹配算法用于通过分布匹配建立广义RNN模型。在三个数据集上进行了大量实验，证明了该方法的有效性。

在未来，我们计划从算法和应用程序两个层面扩展这项工作。首先，探索AdaRNN对Transformer的更深入扩展，以获得更好的性能。第二，将AdaRNN的两个阶段整合到一个端到端的网络中，以便于培训。

yang15987

关注

3
点赞
踩
27

收藏

觉得还不错? 一键收藏
0
评论
翻译：AdaRNN:时间序列的自适应学习与预测：AdaRNN: Adaptive Learning and Forecasting for Time Series∗

虽然时间序列预测在现实世界中有着广泛的应用，但它是一项非常具有挑战性的任务。这是因为时间序列的统计特性可能随时间而变化，导致分布在时间上发生变化，这在机器学习界被称为分布转移问题。到目前为止，从分布转移的角度对时间序列进行建模仍有待探索。在本文中，我们建立了时间序列预测的时间协变量转移（TCS）问题。我们提出了自适应RNN（AdaRNN）来解决TCS问题。AdaRNN按顺序由两个模块组成。第一个模块被称为时间分布表征，其目的是更好地表征时间序列中的分布信息。第二个模块称为时间分布匹配，旨在减少时间序列中的分
复制链接

扫一扫