BasisFormer: Attention-based Time Series Forecasting with Learnable and Interpretable Basis

系列文章目录

BasisFormer:具有可学习和可解释基础的基于注意力的时间序列预测 neurapis2023



摘要

由于它们能够充当特征提取器或未来参考,因此基础已成为基于深度学习的现代时间序列预测模型不可或缺的一部分。 为了有效,基础必须针对特定的时间序列数据集进行定制,并与该集中的每个时间序列表现出明显的相关性。 然而,当前最先进的方法在同时满足这两个要求的能力方面受到限制。 为了应对这一挑战,我们提出了 BasisFormer,这是一种利用可学习和可解释基础的端到端时间序列预测架构。 该架构由三个组成部分组成:首先,我们通过自适应自监督学习获取基础,它将时间序列的历史部分和未来部分视为两种不同的视图,并采用对比学习。 接下来,我们设计一个 Coef 模块,通过双向交叉注意力计算历史视图中时间序列和基数之间的相似性系数。 最后,我们提出了一个预测模块,它根据相似系数选择并巩固未来视图中的基础,从而产生准确的未来预测。 通过对六个数据集的广泛实验,我们证明 BasisFormer 在单变量和多变量预测任务上分​​别比之前最先进的方法高出 11.04% 和 15.78%。 代码位于:https://github.com/nzl5116190/Basisformer。


提示:以下是本篇文章正文内容

一、引言

趋势和季节性等基础对于时间序列建模和预测是不可或缺的,因为它们捕获了潜在的时间模式,并作为驱动数据随时间变化的关键因素。 例如,季节性可以捕捉产品或服务需求的定期波动,而趋势可以反映市场或行业的长期增长或下降。 将这些基础纳入时间序列模型可以提高对未来行为的理解和预测。 事实上,所有常用的时间序列预测深度学习模型都可以重新想象为基础驱动模型。 N-BEATS [1]、N-HiTS [2] 和 FiLM [3] 都采用显式基,例如傅立叶基和勒让德基。 更一般地说,MLP [4](或 CNN [5])中的线性(或卷积)层可以被视为隐式基,因为它们充当滤波器组来分解时间序列。 此外,RNN [6] 和 Transformers [7-13] 中的协变量嵌入(又名全局时间戳嵌入)是另一种形式的基础,因为它们为预测未来序列提供了参考点。

要应用时间序列预测的基础,需要三个步骤。 首先也是最重要的,应该为手头的时间序列集选择或学习适当的基础。 在实践中,基础的整个空间通常可能非常大,而集合中时间序列的模式通常是相似的。 因此,需要学习适合时间序列数据的特定特征(例如周期或频率)的基础。 这有助于降低预测模型的复杂性,并使其更加准确和可解释。 其次,集合中的每个时间序列根据基进行分解。 这涉及计算确定时间序列 w.r.t. 的相似性或投影能量的系数或权重。 (相对于)基础中的每个向量(即滤波器)。 请注意,这些系数应该在不同的时间序列中有所不同,因为每个时间序列也表现出独特的模式和特征。 例如,不同时间序列对应的傅里叶系数会不同。 最后,通过基础的未来部分的加权聚合来确定预测。

不幸的是,上述最先进的方法无法同时满足前两个步骤的要求。 一方面,依赖于经典基的方法,例如 NBEATS [1]、N-HiTS [2] 和 FiLM [3],通常假设基是不可学习的,而是以灵活的方式学习每个时间序列的系数。 投影到基础时的方式。 然而,这样的基础可能无法有效地考虑时间模式,因为不能保证给定的基础包括与时间序列集合相对应的所有周期或频率。 另一方面,旨在从数据中自适应学习基础的方法,例如 MLP [4]、CNN [5]、RNN [6]、Transformer 及其变体 [7-13],往往忽视了灵活关联的需要 基础和每个单独的时间序列之间。 具体来说,虽然 Transformer 及其变体学习了协变量嵌入,但它们以受限的方式将相同的嵌入添加或连接到不同的时间序列嵌入。 对于 MLP 和 CNN,它们对所有时间序列采用相同的线性和卷积层。

为了有效解决上述困境,必须获得一个能够准确反映数据集独特特征的基础,并设计一个可以选择性地利用基础中的相关向量进行预测的预测网络。 为了实现这一目标,我们提出了 BasisFormer,一种具有可学习和可解释基础的时间序列预测架构。 第一步,我们通过从数据中进行自适应自我监督学习来获取基础。 这涉及将时间序列的历史部分和未来部分视为两个不同的视图,并采用对比学习来学习基础,假设时间序列的基础选择应在两个视图中保持一致。 随后,我们设计了Coef模块,通过双向交叉注意力来衡量历史视图中时间序列与基础之间的相似度,促进各个时间序列与基础之间的灵活关联。 最后,我们开发了一个预测模块,根据 Coef 模块产生的相似性,在未来视图中整合来自基础的向量,从而实现准确的未来预测。 我们强调以上三个部分是以端到端的方式进行训练的。 总之,我们工作的主要贡献包括:

• 我们提出了一种基础学习的自监督方法,将时间序列的历史部分和未来部分视为两个不同的视图并采用对比学习,这确保了时间序列基础的选择在两个视图中是一致的。
• 我们设计了Coef 和Forecast 模块,根据衡量时间序列与历史视图中的基础之间相似性的系数,选择并合并未来视图中的相关基础。
• 我们对六个数据集进行了广泛的实验,发现我们的模型在单变量预测任务上比以前的 SOTA 方法高出 11.04%,在多变量预测任务上比以前的 SOTA 方法高出 15.78%。

二、 Related works

时间序列预测模型近年来,深度学习方法已成为时间序列预测的主要技术。 如简介中所示,这些深度学习方法通​​常依靠基础来促进对未来的预测。 根据网络中使用的基的类型,预测模型分为两类:使用经典正交基的模型和使用可学习基的模型。 第一组涉及 N-BEATS [1]、N-HiTS [2] 和 FiLM [3]。 N-BEATS 和 N-HiT 通常利用傅立叶基,然后在递归网络中学习该基的系数,以便该基有助于将时间序列的历史部分分解为不同的分量,并且可以进一步聚合这些分量以预测 未来。 FiLM通过勒让德多项式基逼近历史部分,并借助傅立叶基进一步去除噪声。 这组方法的主要缺点是基础是预定义的,从而产生了选择哪种类型的基础(例如,傅里叶或勒让德多项式)以及进一步选择基础中的哪些向量(例如,哪个频率)的问题。 我们从傅里叶基础中选择的分量)。 另一方面,基于可学习基础的模型,如D Linear [4]、TCN [5]、Deepar [6]、LogTrans [11]、Informer [7]、AutoFormer [8]、FedFormer [9]等 ,使用可学习的线性或卷积层,或协变量嵌入作为基础。 尽管这些基数适用于时间序列,但基数与时间序列之间的关系对于所有时间序列都是固定的。 例如,将协变量嵌入以相同的方式添加或连接到不同时间序列的嵌入,而不考虑每个序列的独特频率和周期模式。 在我们的论文中,我们提出了一种方法,该方法允许提供可学习的基础以及基础与每个时间序列之间的灵活关联,以实现更准确的预测。

时间序列分析的基础学习除了时间序列预测之外,还为其他与时间序列相关的任务(例如时间序列分类)探索了可学习的基础。 请注意,基础学习与时间序列的表示学习不同,因为前者的目标是使用公共基础捕获一组时间序列的模式,而后者的目标是从单个时间序列中提取特征。 此外,该基础可以帮助从时间序列中提取特征,如 D Linear [4] 和 TCN [5] 中所示。 传统上,利用不可学习的基础,例如傅立叶和小波基础。 然而,存在一些克服这一限制并能够使用可学习基础的作品。 可学习的群变换[14]概括了小波变换器中的滤波器组,并允许对母小波进行非线性变换,以获得可以更好地从时间序列中提取特征的灵活滤波器组。 沿着这个方向,Balestriero 等人。 [15]提出了一种基于维格纳-维尔变换的可学习高斯滤波器,具有一些可解释的参数,并证明所得滤波器组可以在经典滤波器组(包括傅里叶、小波和线性调频基)之间进行插值。 音频信号处理也提出了类似的工作[16, 17],这表明可学习的基是比固定基更有效的特征提取器。 因此,我们在工作中利用了可学习的基础,并证明了其对于时间序列预测的有用性。 应该指出的是,DEPTS [18]通过实施深度扩展学习框架来解决周期性时间序列中复杂的依赖关系和多重周期性带来的挑战。 然而,DEPTS 采用的复杂的初始化和优化策略,以及它仅适用于周期序列的局限性,促使我们开发一个更简单、更普遍适用的基础学习框架。 具体来说,我们提出了一种基于自监督对比学习的基础学习新方法。

自监督时间序列表示学习由于我们采用自监督表示学习技术来学习基础,因此有必要检查该领域的相关工作。 该领域的一种流行方法是对比预测编码(CPC)[19],它通过将后续未来时间序列视为正样本,将随机非后续未来时间序列视为负样本,实现对比学习以获得时间序列表示。 另一种方法,TS-TCC [20],用两种类型的扰动来增强数据以获得两个视图,并对比地执行跨视图预测任务,类似于 CPC。 作为替代方案,TS2VEC [21] 通过时间戳屏蔽或随机裁剪生成正样本,而不利用未来信息。 请注意,所有这些方法都试图从不同的角度建立时间序列的通用表示。 与这些方法不同,我们的目标是保持时间序列和基础之间关系的一致性。 换句话说,虽然时间序列在历史和未来视图中的表示可能有所不同,但它们与相应基础的关系应该保持一致。

三、 BasisFormer

假设我们有一个维度为 C 的时间序列集合,这意味着 C 个相关的时间序列需要同时预测。 该集合中的每个时间序列的特征在于其历史 x = ( x 1 , ⋯   , x I ) \boldsymbol{x}=(x_1,\cdots,x_I) x=(x1,,xI)和未来 y = ( y 1 , ⋯   , y O ) \boldsymbol{y}=(y_{1},\cdots,y_{O}) y=(y1,,yO),其中 I 和 O 分别对应于输入和输出序列长度 。 我们的主要目标是学习一个可以解释组中所有时间序列行为的基础 z,并进一步利用它来预测给定 x 的 y。 相应地,z也可以分为历史分量 z x {z_{x}} zx和未来分量 z y {z_{y}} zy

在这里插入图片描述
图1:BasisFormer的架构,由1个Coef模块、2个Forcast模块和3个Basis模块组成。 绿线和蓝线分别表示时间序列和基向量集合的数据流。 青色菱形表示张量点积。 请注意,点划线表示时间序列未来部分的数据流,仅在训练期间包含,但在推理期间删除。

正如简介中提到的,使用时间序列预测的基数需要三个步骤:学习适当的基数,计算时间序列相对于每个基向量的系数,以及基于未来部分的加权聚合进行预测。 基础。 所提出的 BasisFormer 以高度通用的方式促进这三个步骤。 如图1所示,BasisFormer的整体架构也包含三个部分: 1 Coef模块,它将时间序列与每个基向量进行比较,以确定相应的系数; 2. Forecast模块,根据系数和基础的未来部分来预测未来; 3 Basis模块,通过从历史和未来的角度调整基础和时间序列之间的关系来学习基础。 现在我们将详细介绍每个 BasisFormer 组件。

3.1 Coef module for similarity comparison between time series and basis时间序列与基础相似度比较的Coef模块

Coef 模块旨在测量一组时间序列和一组基向量之间的相似性。 由于我们的重点是两个集合之间的关系,而不是每个集合内部的关系,因此我们利用二分图来表示这种关系,其中一个集合中的节点表示时间序列(参见图 1 中的绿色节点),而 另一组代表基向量(参见图 1 中的蓝色节点)。 因此,图中连接两个节点的边的强度相当于它们之间的相似系数(见图1中的红色边)。 为了获得边缘强度,我们需要图中节点的表示。 我们通过开发双向交叉注意力块(BCAB)来通过交叉注意力学习节点表示来实现这一点,与图注意力网络[22]类似。

第一步,给定两组输入 a ( i )   a n d   b ( i ) \boldsymbol{a}^{(i)}\mathrm{~and~}\boldsymbol{b}^{(i)} a(i) and b(i),让我们将交叉注意块 (CAB) 定义为:
在这里插入图片描述其中 MAH 表示具有 H 个头的多头注意力,其查询由 Q = W q a \boldsymbol{Q}=\boldsymbol{W}_q\boldsymbol{a} Q=Wqa给出,键由 K = W k b K=\boldsymbol{W}_k\boldsymbol{b} K=Wkb给出,值由 V = W v b \boldsymbol{V}=\boldsymbol{W}_v\boldsymbol{b} V=Wvb给出。 通过 a ( i )   a n d   b ( i ) \boldsymbol{a}^{(i)}\mathrm{~and~}\boldsymbol{b}^{(i)} a(i) and b(i)之间相互交换信息,我们可以将BCAB构造为:
在这里插入图片描述
where
在这里插入图片描述

请注意,CABH 中用于计算 a ( i + 1 )  and  b ( i + 1 ) \boldsymbol{a}^{(i+1)}\text{ and }\boldsymbol{b}^{(i+1)} a(i+1) and b(i+1)的参数可能不同,以便捕获从 a ( i ) \boldsymbol{a}^{(i)} a(i) b ( i ) \boldsymbol{b}^{(i)} b(i) 以及从 b ( i ) \boldsymbol{b}^{(i)} b(i) a ( i ) \boldsymbol{a}^{(i)} a(i)的关系中的异质性。 人工智能)。

相应地,给定 C 个时间序列 x ∈ R C × I \boldsymbol{x}\in\mathbb{R}^{C\times I} xRC×I 和大小为 N 的基 z x ∈ R N × I \boldsymbol{z}_x\in\mathbb{R}^{N\times I} zxRN×I,我们可以通过堆叠 M 层 BCABH 来得到它们的表示,即 x ( M ) ∈ R C × D c × H \boldsymbol{x}^{(M)}\in\mathbb{R}^{C\times D_c\times H} x(M)RC×Dc×H z x ( M ) ∈ R N × D c × H \boldsymbol{z}^{(M)}_x\in\mathbb{R}^{N\times D_c\times H} zx(M)RN×Dc×H,其中Dc表示BCABH中每个头的隐藏维度。 请注意,交叉注意力是在时间序列和基础之间计算的,而不是在基于 Transformer 的模型中常见的跨时间计算 [7, 13]。 此外,注意力机制用于允许时间序列和基向量之间的灵活关联。 这种方法确保每个时间序列可以选择性地关注最相关的基向量,同样,每个基向量可以选择性地关注最相关的时间序列。

最后,Coef 模块计算每个时间序列的“系数”。 每个基向量作为每个 H 个头的表示 x ( M )   a n d   z x ( M ) x^{(M)}\mathrm{~and~}z_x^{(M)} x(M) and zx(M) 的内积,得到系数张量 c ∈ R C × N × H \boldsymbol{c}\in R^{C\times N\times H} cRC×N×H

3.2 Forecast module for aggregation and future prediction

获得系数后,我们利用它们进行预测。 我们首先将基向量 z y z_y zy 的未来部分投影到可以使用系数线性聚合的空间中。 由于 Coef 模块计算 H 个头的系数,因此 z y z_y zy 的投影也应该有 H 个头以保持一致性。 为此,我们采用具有瓶颈的四层多层感知器(MLP)将 z y ∈ R N × O \boldsymbol{z}_y\in\mathbb{R}^{N\times O} zyRN×O 映射到 z ^ y ∈ R N × O \hat{\boldsymbol{z}}_y\in\mathbb{R}^{N\times O} z^yRN×O,然后将其分成 H 个头,每个头的大小为 N × (O/ H),记作 z ~ y ∈ R N × H × ( O / H ) \tilde{\boldsymbol{z}}_y\in\mathbb{R}^{N\times H\times(O/H)} z~yRN×H×(O/H)
对于每个头,我们通过计算 N 维上 z ~ y \tilde{\boldsymbol{z}}_{y} z~y的系数加权和来聚合 N 个基向量,即

在这里插入图片描述
其中 h ∈ {1, · · · ,H} 表示头索引, y ~ \tilde{\boldsymbol{y}} y~ 的大小为 C ×H × (O/H)。

接下来,我们将 H 个头连接在一起,并将它们通过另一个具有瓶颈的四层 MLP,以便在不同头之间交换信息。 这是因为不同的头可能捕获了输入序列的不同方面,而融合 MLP 可以帮助组合信息并提高整体预测性能。

值得注意的是,上述模块中的瓶颈层用于降低输入特征的维度,然后将其投影到更高维度的空间。 这有助于降低投影操作的计算复杂度并防止过度拟合。 此外,使用瓶颈层还可以通过强制模型学习输入的压缩表示来帮助提取更多信息特征,从而提高预测精度。

最后,我们通过均方误差(MSE)损失函数将预测值 y ~ \tilde{\boldsymbol{y}} y~与真实值 y 进行比较,即 L p r e d L_{pred} Lpred = MSE( y ~ \tilde{\boldsymbol{y}} y~, y)。

3.3 Basis module for basis learning

在本小节中,我们将介绍以自我监督的方式学习数据驱动基础的方法。 目标是获得满足三个基本属性的基础。

首先,基向量和时间序列之间的关系在时间上应该是一致的,这样我们就可以通过使用从基的历史部分和时间序列获得的系数组合基的未来部分来预测未来。 ( z x , z y ) , (\boldsymbol{z}_x,\boldsymbol{z}_y), (zx,zy),,时间序列和基础之间的系数(即边缘强度)应该在历史视图 ( x , z x ) (\boldsymbol{x},\boldsymbol{z}_x) (x,zx)和 未来视图 ( y , z y ) (\boldsymbol{y},\boldsymbol{z}_y) (y,zy)。 换句话说,历史视图中给定时间序列与特定基向量的相关性应该保留在未来视图中。 为了实现这一点,我们将 ( x , z x ) (\boldsymbol{x},\boldsymbol{z}_x) (x,zx) ( x y , z y ) (\boldsymbol{xy},\boldsymbol{z}_y) (xy,zy)传递给 Coef 模块,以分别获得两个视图 c x   a n d   c y \boldsymbol{c}_x\mathrm{~and~}\boldsymbol{c}_y cx and cy 的系数张量,尺寸均为 C ×N ×H。 对于每个时间序列,我们通过考虑系数 w.r.t 来执行对比学习。 c x \boldsymbol{c}_{x} cx中的每个基向量作为锚点,系数 w.r.t. c y \boldsymbol{c}_{y} cy中对应的基向量作为正样本,系数w.r.t. c y \boldsymbol{c}_{y} cy中剩余的基向量作为负样本。 我们优化 InfoNCE 损失以最大化 c x \boldsymbol{c}_{x} cx c y \boldsymbol{c}_{y} cy 之间的互信息,其由下式给出
在这里插入图片描述
其中 ϵ 表示用于调整对齐分布平滑度的温度。

此外,我们要求基础是可解释的,这意味着我们可以深入了解基础捕获的底层模式。 为了实现可解释性,我们通过正则化项促进时间上的平滑性,即

在这里插入图片描述
其中,我们将历史视图和未来视图的基向量 ( z x , z y ) (\boldsymbol{z}_x,\boldsymbol{z}_y) (zx,zy)沿最后一个维度连接起来形成 z,平滑矩阵 ( z x , z y ) (\boldsymbol{z}_x,\boldsymbol{z}_y) (zx,zy) 可以表示为:
在这里插入图片描述

很明显,通过将 z 与 S 相乘,我们计算 ∥ z [ : , t − 1 ] − 2 z [ : , t ] + z [ : , t + 1 ] ∥ 2 2 , \|\boldsymbol{z}[:,t-1]-2\boldsymbol{z}[:,t]+\boldsymbol{z}[:,t+1]\|_2^2, z[:,t1]2z[:,t]+z[:,t+1]22,,这是随时间变化的曲率 [23]。 使用 S 的优点之一是添加常数和时间的线性函数使得损失不变。 因此,上述平滑度损失可以适应整体平均水平的变化以及线性趋势。

最后,基础应该是时间戳的函数。 因此,我们开发了一个四层 MLP,在第二层的输入和输出之间具有跳跃连接。 网络的输入是与历史窗口中的第一个时间点相关的归一化时间戳。 假设数据集中时间序列的总长度为T,则归一化时间戳定义为τ = t/T,其中t ∈ {0, · · · , T − 1}。 网络的输出是一个 N× (I +O) 张量,它是当前时间窗口的基础。

总的来说,我们优化的损失可以表示为:
在这里插入图片描述
我们发现 BasisFormer 的性能对于(9)中项前面的权重是稳健的。 因此,我们在所有实验中将权重设置为 1。 损失函数中权重的敏感性分析见附录A.4。

四、 Experiments

为了评估我们模型的有效性,我们使用与[5, 7-9]中相同的实验设置对来自真实场景的六个数据集进行了全面的实验。 下面我们总结了实验设置、数据集、模型和比较模型。

实验设置:历史输入序列的长度保持在 96(疾病数据集为 36),而要预测的序列的长度是从一系列值中选择的,即 {96, 192, 336, 720 (疾病数据集为 {24, 36, 48, 60})。 请注意,为了公平比较,所有方法的输入长度都固定为 96。

数据集:本研究使用的六个数据集包括以下内容:1)ETT[7],由电力变压器的温度数据组成; 2)用电量,包括多个客户的用电量数据; 3)汇率[24],包含特定时间范围内的金融汇率; 4)交通,包括与道路交通相关的数据; 5)天气,涉及各种天气指标; 6) 疾病,包括记录的流感样疾病数据。 请注意,ETT 进一步分为四个子数据集:ETTh1、ETTh2、ETTm1 和 ETTm2,表 1 中的结果仅基于 ETTm2 子数据集。 其余三个子数据集的结果可以在附录中找到。

比较模型:在本研究中,我们将我们提出的模型与以下最先进的模型进行比较:四种基于变压器的模型,即 FEDformer [9]、Autoformer [8]、Pyraformer [13]; 一种基于 MLP 的模型,即 D线性 [4]; 以及一种基于 CNN 的模型,即 TCN [5]。 我们还考虑了最近提出的两个模型,例如 N-Hits [2] 和 FiLM [3]。 由于篇幅限制,我们根据模型的性能和多样性,在本文中展示了选定数量的模型的结果。 有兴趣的读者可以参考补充材料进行更全面的比较。

表 1:使用输入长度 I = 96(或对于疾病数据集 I = 36)和输出长度 O ε {96, 192, 336, 720}(或 O ε {24, 36, 48, 60} 对于疾病数据集)。 在所有实验中,较低的 MSE 值表明模型性能较好,我们以粗体显示最佳结果。
在这里插入图片描述

4.1 Main results

多变量结果:表 1 列出了多变量时间序列预测的结果。经常,所提出的 BasisFormer 在所有六个数据集上都优于比较模型,取得了最佳结果。 此外,Basisformer 比最先进的方法 Fedformer 提高了 21.79%。 我们还观察到,与最近提出的模型(例如 FiLM [3] 和 D线性 [4])相比,BasisFormer 的平均 MSE 性能分别大幅提高了 10.78% 和 14.78%。 值得注意的是,对于流量数据集,BasisFormer 远远优于其他方法,这可能是因为流量数据集是一个高度周期性的数据集,而我们的模型可以很好地学习周期性表示。 单变量结果:单变量时间序列预测的结果如表 2 所示。我们的模型与最先进的方法相当。 具体来说,与 FEDformer [9] 等 sota 方法相比,我们提出的模型将平均 MSE 性能提高了 15.36%。 与最近的模型如 FiLM [3] 和 D Linear [4] 相比,我们也取得了更好的性能,分别增加了 1.6% 和 16.17%。 3

4.2 Ablation studies

可学习基的效果:为了证明可学习基的有效性,我们将模型中的可学习基部分替换为三种常用类型的固定基:覆盖输入长度内所有可能频率的固定正弦/余弦基、随机正弦基 /余弦基在广泛的频率范围内选择,协变量嵌入通常用于基于 Transformer 的模型。 结果如表 3 所示。可学习碱基的替换导致性能至少平均下降 5%。 值得一提的是,正弦型基虽然具有良好的泛化能力,但在对具体数据的适应性方面存在不足。 对于协变量嵌入,尽管具有可学习的参数并包含额外的序列信息,但它们没有考虑基础和不同时间序列之间的明显相关性。

表 2:使用输入长度 I = 96(或对于疾病数据集 I = 36)和输出长度 O ∈ {96, 192, 336, 720}(或 O ∈ {24, 36, 48, 60} 对于疾病数据集)。 在所有实验中,较低的 MSE 值表明模型性能较好,我们以粗体显示最佳结果。
在这里插入图片描述
表 3:电力数据集上可学习基础和其他基础的比较。 最佳结果以粗体标记。
在这里插入图片描述
表 4:多头操作对 Basis 的影响。 在本实验中,k表示头的数量,k ∈ {4,8,16,32}。 我们在这个实验中使用了电力数据集。 最佳结果以粗体标记。
在这里插入图片描述
多头机制的影响:我们进一步检查Coef模块中头的数量对性能的影响。 结果如表4所示。结果表明,当头数在一定范围内增加时,性能呈现上升趋势。 然而,超过一定数量,进一步增加头部可能会导致性能下降。 因此,我们在实验中设置 H = 16。

Basis 模块的消融研究:我们最终采用消融实验来隔离 Basis 模块中使用的两种不同的损失函数。 结果记录在表5中。可以看出,InfoNCE损失对BasisFormer的良好性能有显着贡献。 平滑度损失也做出了积极的贡献。 值得注意的是,结合使用两个损失函数会产生最佳结果。 具体来说,InfoNCE 损失提高了数据库获取时间序列表示的能力,而平滑损失函数则减轻了对数据内噪声的过度拟合。

表 5:自监督模块中每个损失项对性能的贡献。 本实验使用的数据集是电力。 最佳结果以粗体标记。
在这里插入图片描述
表6:碱基数量N对模型性能的影响。 本实验采用电力数据集。 我们以粗体显示最好的结果。
在这里插入图片描述
图 2:当基向量的数量 N 很大时,两个高度相关的基向量。

基向量数量的影响:我们在表 6 中展示了不同数量的基向量 N 下所提出模型的性能,其中 N 设置为 1、5、10、15 和 20。结果表明该模型的性能 在很宽的 N 范围内保持稳定,表明其能够自适应调整基向量的数量。 值得注意的是,当 N 增加超过某个阈值时,一些基向量可能会变得冗余。 为了进一步探索这一点,我们将图 2 中 N = 20 时学习到的基向量的子集可视化。有趣的是,我们观察到两个基之间的高余弦相似度为 -0.93,这表明某些基向量对于准确的预测可能不是必需的。 预言。 因此,在实际应用中,我们将所有数据集的N设置为10,以在不影响性能的情况下降低计算复杂度。

4.3 其他研究

自监督模块对其他模型的适应性:为了证明自监督基础学习模块的通用性,我们将 FEDformer [9] 和 Autoformer [8] 中使用的协变量视为可学习的基础,并使用我们的自监督模型来监督它们 - 监督框架。 值得注意的是,我们只对这些模型中使用的协变量提供监督,而不在预测路径中引入任何额外的参数。 结果如表 7 所示。我们可以看出,在协变量中添加自我监督只会导致性能提高约 5%。 这种现象表明,可学习的基础比给定的协变量为未来提供了更可靠的参考。

基础的可解释性:为了以更容易理解的方式阐明基础的影响,我们将图 3(a) 和图 3(b) 中流量数据集的时间序列和相应的学习基础可视化。 具体来说,我们随机选择 4 个时间序列和基向量。 从图中可以看出几个关键点:首先,流量数据具有很强的周期性模式,在96的长度内大约有四个呈正弦形状的峰值。尽管峰值的位置随时间分布并不均匀。 。 相应地,学习的基础遵循这种周期性模式,并有效地捕获数据的显着特征。 其次,我们的方法给出的基向量是平滑的,表明它们没有被数据中的噪声破坏。 请注意,噪声是不可预测的,因此驱动未来变化的基础最好是平滑的。 第三,很明显,学习的基数具有不同的高度和间隔,从而提供多样性来表征时间序列的不同特征。 最后,获得的基数从过去和未来的角度来看都是一致的,从而有利于根据时间序列与历史部分基数之间的系数相似度来预测未来趋势。 更多可视化结果可以在附录 E 中找到。

表 7:基于 Transformer 的模型中使用的自监督模块的性能比较。 “origin”表示不对原始模型进行任何修改,“(+)coef module”表示应用我们设计的自监督网络来监督模型中的协变量。 本实验使用的数据集是电力。 最佳结果以粗体标记。

在这里插入图片描述在这里插入图片描述(a) Traffic 数据集上时间序列的可视化
在这里插入图片描述
(b) 交通数据集学习基础的可视化

五、 Conclusion

本文提出了 BasisFormer,这是一种新颖的解决方案,可以缓解阻碍现有 SOTA 方法有效性的两个重大限制。 通过BasisFormer的利用,可以实现自调整基础的自动学习。 此外,给定学习的基础,BasisFormer 还允许不同的时间序列与不同的基础向量子集相关。 我们的实验结果提供了令人信服的证据,证明 BasisFormer 相对于现有方法的优越性。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值