SELF-SUPERVISED CONTRASTIVE FORECASTING

系列文章目录

自监督对比预测 ICLR2024



摘要

https://github.com/junwoopark92/Self-Supervised-Contrastive-Forecsating

由于处理长序列的时间和记忆复杂性,长期预测提出了独特的挑战。现有的方法依赖于滑动窗口来处理长序列,难以有效地捕获部分在短窗口内捕获的长期变化(即外窗变化)。在本文中,我们介绍了一种新的方法,通过采用对比学习和增强的分解体系结构来克服这种限制,特别设计用于关注长期变化。为此,我们的对比损失包含了整个时间序列的全局自相关,这有助于以自监督的方式构建正对和负对。当与我们的分解网络相结合时,我们的对比学习显着提高了长期预测性能。大量的实验表明,我们的方法在9个长期基准的多个实验中优于14个基线模型,特别是在需要很长时间输出预测的具有挑战性的场景中。源代码可从https://github.com/junwoopark92/Self-Supervised-Contrastive-Forecsating获得。


一、引言

时间序列数据呈现出独特的挑战,因为它的潜在无限长度随着时间的推移而积累,使得一次处理它们变得不可行的(Ding等人,2015;Hyndman等,2015;Rakthanmanon et al., 2013)。与自然语言句子等其他序列数据相比,这需要不同的策略。为了解决这个问题,滑动窗口方法(Kohzadi et al., 1996)通常用于将单个时间序列数据划分为更短的子序列(即窗口)。滑动窗口方法使模型不仅可以处理长期序列,还可以在窗口内捕获过去和未来序列之间的局部依赖关系,从而得到准确的短期预测。

最近,随着行业对预测更遥远未来的需求增加(Ahmad et al., 2014;Vlahogianni et al., 2014;Zhou et al., 2021),各种研究逐渐增加了窗口长度。基于变压器的模型通过改进注意力机制降低了使用长窗口的计算成本(Zhou et al., 2021;Wu et al., 2021;Liu et al., 2022a)。此外,基于cnn的模型(Bai et al., 2018;Yue等人,2022)在卷积操作中应用了扩展,以学习更多的远程依赖关系,同时受益于它们高效的计算成本。尽管这些模型取得了显著进展,但它们在长期预报方面的有效性仍不确定。由于扩展窗口仍然短于总时间序列长度,这些模型可能无法学习到比窗口长度更长的时间模式。
在这里插入图片描述

图1:长期变化超出了常规窗口。非零相关性(左Y轴)具有较长的滞后,傅里叶分量(右Y轴)具有比窗口大小更长的周期。

在本文中,我们首先分析了使用子序列(即基于滑动窗口)训练的现有模型用于长期预测任务的局限性。我们观察到,大多数时间序列通常包含长期变化,其周期长于传统的窗口长度,如图1和图5所示。如果一个模型成功地捕获了这些长期变化,我们期望两个遥远但相关的窗口的表示比不相关的窗口更相似。然而,由于之前的研究都是在训练过程中独立处理每个窗口,因此模型很难捕捉跨不同窗口的长期变化。图2明确地表明,现有模型的表示不能反映两个遥远窗口之间的长期相关性。然而,最近的方法往往忽略了长期变化,更多地关注于学习窗口内的短期变化。例如,现有的基于分解方法的模型(Zeng et al., 2023;Wang et al., 2023)经常将部分捕获在窗口中的长期变化视为简单的非周期性趋势,并采用线性模型将过去的趋势扩展到预测中。此外,窗单元归一化方法(Kim et al., 2021;Zeng et al., 2023)可能会通过标准化可能对时间序列产生长期影响的数值显著值(例如,过去的最大值、最小值、特定领域的值)来阻碍长期预测。由于这些归一化方法对于缓解由非平稳性(Liu et al., 2022b)引起的分布移位问题(Kim et al., 2021)至关重要,因此需要一种新的方法来学习长期变化,同时仍然保持归一化方法。

在这里插入图片描述
图2(上)电力时间序列,包括窗口大小以外的长期变化。(下)绘制了锚定窗口W2与包括W1和W3在内的所有其他窗口之间四个模型的表示相似性。为了清晰地突出长期相关性,我们平滑了由短期相关性引起的波动。可视化的细节见附录C.1。尽管W2与W1具有相似的时间模式,但除了我们的模型外,三个模型都没有学习到这种周期性作为表示。这三种模型在每个窗口内输入部分的两个表示之间产生几乎相同的余弦相似度分数(即Sim(W2,W1)≈Sim(W2,W3))。这有助于我们的模型在长期预测中显示出比PatchTST(0.332)和TimesNet(0.417)更低的均方误差(0.275)。

因此,我们提出了一种新的对比学习方法,以帮助模型捕获存在于不同窗口之间的长期依赖关系。我们的方法基于这样一个事实:一个小批处理可以由暂时相距很远的窗口组成。它允许窗口之间的间隔跨越整个序列长度,这比窗口长度长得多。第3.1节描述了对比损失的细节。此外,我们将对比损失与基于分解的模型体系结构结合使用,该体系结构由两个分支组成,即短期分支和长期分支。当然,我们的损失适用于长期分支。然而,如前所述,现有分解体系结构中的长期分支由单个线性层组成,不适合学习长期表示。因此,如第3.2节所述,我们重新设计了分解体系结构,其中长期分支有足够的能力从我们的损失中学习长期表示。综上所述,我们的工作主要贡献如下:

•我们的研究结果表明,现有模型的长期表现很差,因为这些模型忽略了窗口之外的长期变化。
•我们提出了AutoCon,这是一种新的对比损失函数,通过以自监督的方式在遥远的窗口上构造正对和负对来学习长期表示。
•在9个数据集上进行的广泛实验表明,与包括三种表示方法在内的14种并发模型相比,使用AutoCon训练的所提出的分解架构实现了高达34%的性能改进。

二、相关工作

时间序列预测的对比学习 对比学习(Chen et al., 2020;Khosla et al., 2020;Zha et al., 2022)是一种自监督学习技术,它可以帮助模型学习有用的数据表示,而不需要对数据进行明确的标记。由于最近在计算机视觉中对比学习的成功,许多方法(Tonekaboni et al., 2021;Yue等人,2022;Woo et al., 2022a)已经在时间序列分析中提出。在对比学习中,由于如何构建正对对学习成绩有很大影响,他们主要提出了时间一致性(Tonekaboni et al., 2021)、子序列一致性(Franceschi et al., 2019)和语境一致性(Yue et al., 2022)等正对构建策略。然而,这些策略有一个局限性,即只有在时间上接近的样本被选择为阳性,忽略了时间序列中的周期性。由于周期性,可能有更多相似的负样本比正选择的样本。最近,CoST (Woo et al., 2022a)尝试通过频域对比损耗(Frequency Domain Contrastive loss)学习一种考虑周期性的表示,但由于它仍然对窗口使用增宽,因此无法考虑窗长以外的周期性。在时间序列学习框架中,我们关注的是批处理中随机采样的序列在时间上可能彼此相距很远。因此,我们提出了一种新的选择策略,既可以在批处理窗口之间选择局部正对,也可以选择全局正对。

基于分解的长期预测模型 时间序列分解(Cleveland et al., 1990)是一种成熟的技术,它将时间序列分解为其单独的组成部分,如趋势、季节和剩余部分。通过将时间序列分解为这些组件,可以更容易地分析每个组件的行为并做出更可解释的预测。因此,基于分解的模型(Wu et al., 2021;周等,20022b;Wang等人,2023)在时间序列预测中越来越受欢迎,因为它们提供了稳健和可解释的预测,即使在复杂的时间序列上训练也是如此。最近,DLinear(Zeng et al., 2023)通过对每个趋势和季节成分使用分解块和单个线性层,展示了卓越的性能。然而,我们的分析表明,这些线性模型在捕获影响短期预测的高频成分方面是有效的,而它们经常错过显著影响长期预测的低频成分。因此,单一线性模型对于短期预测可能是足够的,但对于长期预测是不够的。鉴于这种限制,我们提出了一种模型体系结构,其中包括具有不同能力的层,以解释两个组件的独特属性。

三、相关工作

Notations 我们首先用滑动窗口方法描述预测任务(Zhou et al., 2021;Wu et al., 2021;Park等人,2023),它涵盖了整个时间序列 S = { s 1 , … , s T } \mathcal{S}=\{\mathbf{s}_{1},\ldots,\mathbf{s}_{T}\} S={s1,,sT}的所有可能的输出序列对。其中T为观测时间序列的长度, s t ∈ R c \mathbf{s}_t\in\mathbb{R}^c stRc为c维观测值。为了简单地解释我们的方法,我们在本文中将维度c设置为1。通过在S上滑动固定长度W的窗口,我们得到窗口 D = { W t } t = 1 M \mathcal{D}=\{\mathcal{W}_{t}\}_{t=1}^{M} D={Wt}t=1M,其中 W t = ( X t , Y t ) {\mathcal{W}}_{t}=(\mathcal{X}_{t},\mathcal{Y}_{t}) Wt=(Xt,Yt)分为两部分:输入序列Xt = { s t , … , s t + I − 1 } \{\mathbf{s}_{t},\ldots,\mathbf{s}_{t+I-1}\} {st,,st+I1},输入长度为 I \text{I} I,输出序列 Y t = { s t + I , … , s t + I + O − 1 } \mathcal{Y}_{t}=\{\mathbf{s}_{t+I},\ldots,\mathbf{s}_{t+I+O-1}\} Yt={st+I,,st+I+O1},输出长度为0。同样,我们将 W t \mathcal{W}_{t} Wt的全局索引序列表示为 T t = { t + i } i = 0 W − 1 \mathcal{T}_{t}=\{t+i\}_{i=0}^{W-1} Tt={t+i}i=0W1

3.1 AUTOCORRELATION-BASED CONTRASTIVE LOSS FOR LONG-TERM FORECASTING基于自相关的长期预测对比损失

Missing Long-term Dependency in the Window 许多现实世界的时间序列表现出不同的长期和短期变化(Wu等,2021;2023;Wang et al., 2023)。在这种情况下,预测模型可能难以预测长期变化,因为这些变化没有在窗口内捕获。受随机过程理论的启发,我们首先使用自相关来识别这些长期变化(Chatfield & Xing, 2019;Papoulis & Unnikrishna Pillai, 2002)。对于真实的离散过程 { S t } \{\mathcal{S}_{t}\} {St},我们可以用下式得到自相关函数 R S S ( h ) \mathcal{R}_{\mathcal{S}\mathcal{S}}(h) RSS(h):

在这里插入图片描述
自相关度量不同时间观测值之间的相关性(即滞后时间h),当相关性接近1或-1时,表示序列S中以h隔开的所有点都是线性相关的,正负号方向相同或相反。换句话说,自相关可以用来预测基于当前变化的h区间之外的未来变化。尽管最近的方法利用自相关来发现基于周期的依赖关系(Wu et al., 2021;Wang et al., 2022),他们只将其应用于捕获窗口内的变化,而忽略了跨越窗口之外的长期变化。但是如图1所示,在常规窗口长度之外存在非零相关性。我们首次提出了一种通过对比学习的表征学习方法来捕获这些由全局自相关量化的长期变化。请注意,为了将我们的方法与那些在给定窗口内使用局部自相关的方法区分开来,我们将整个时间序列计算的自相关称为全局自相关。在这里插入图片描述

图3:AutoCon中相对选择策略的示例。在整个序列上从t1、t2和t3的不同时间采样三个窗口,以组成批处理。在这批中,总共有三个可能的正对(即由于三个锚点)。每一对都计算一个全局自相关,其滞后是构成这对的两个窗口的时间距离。然后,通过与其他自相关对的比较,将自相关系数低于锚定正对的对指定为负对。

Autocorrelation-based Contrastive Loss (AutoCon)基于自相关的对比损耗(AutoCon) 我们注意到,一个小批可以由暂时相距很远的窗口组成。这个时间距离可以和整个序列长度T一样长,这比窗口长度w长得多。基于这个事实,我们通过建立窗口之间的关系来解决整个序列中存在的长期依赖关系。具体来说,我们基于全局自相关定义了两个窗口之间的关系。在 t 1 t_{1} t1和t t 2 t_{2} t2两个不同时刻获得的任意两个窗口 W t 1 \mathcal{W}_{t_{1}} Wt1 W t 2 \mathcal{W}_{t_{2}} Wt2各有W个观测值,它们具有全局索引时间序列 T t 1 = { t 1 + i } i = 0 W − 1 \mathcal{T}_{t_{1}}=\{t_{1}+i\}_{i=0}^{W-1} Tt1={t1+i}i=0W1 T t 2 = { t 2 + j } j = 0 W − 1 . \mathcal{T}_{t_2}=\{t_2+j\}_{j=0}^{W-1}. Tt2={t2+j}j=0W1.。然后,我们用矩阵 D ∈ R W × W D\in\mathbb{R}^{W\times W} DRW×W表示每个窗口中两个观测值的所有对之间的时间距离。这个矩阵D包含时间距离作为元素 D i , j = ∣ ( t 2 + j ) − ( t 1 + i ) ∣ \begin{aligned}\boldsymbol{D}_{i,j}&=|(t_2+j)-(t_1+i)|\end{aligned} Di,j=(t2+j)(t1+i)。在两个窗口中,相同相位(即i= j)之间的时间距离都具有相同的值 ∣ t 1 − t 2 ∣ |t_{1}-t_{2}| t1t2,它们由矩阵的对角线项 { D i , i } i = 1 W − 1 \{D_{i,i}\}_{i=1}^{W-1} {Di,i}i=1W1表示。因此,基于这种代表性,我们利用全局自相关 R S S ( ∣ t 1 − t 2 ∣ ) \mathcal{R}_{\mathcal{SS}}(|t_{1}-t_{2}|) RSS(t1t2)定义两个窗口之间的关系如下:

r ( T t 1 , T t 2 ) = ∣ R S S ( ∣ t 1 − t 2 ∣ ) ∣ ( 2 ) r(\mathcal{T}_{t_1},\mathcal{T}_{t_2})=|\mathcal{R}_{\mathcal{SS}}(|t_1-t_2|)|\quad\quad\quad\quad\quad\quad(2) r(Tt1,Tt2)=RSS(t1t2)(2)

式中, R S S \mathcal{R}_{\mathcal{SS}} RSS表示列车序列S计算的全局自相关。

现在,我们设计一个损失,以确保所有对窗口表示之间的相似性遵循数据空间中测量的全局自相关性。为了实现这一点,我们以SupCR (Zha et al., 2022)启发的相对方式定义正样本和负样本,用于图像域的回归任务。然而,与SupCR使用带注释的标签来确定图像之间的关系不同,我们使用全局自相关 R S S \mathcal{R}_{\mathcal{SS}} RSS来确定窗口之间的关系,使我们的方法成为一种无监督方法。我们将包含N个窗口的小批 X ∈ R N × I \mathcal{X}\in\mathbb{R}^{N\times I} XRN×I提供给编码器,以获得表示 v ∈ R N × I × d v\in\mathbb{R}^{N\times I\times d} vRN×I×d,其中 v = E n c ( X , T ) . \boldsymbol{v}=Enc(\mathcal{X},\mathcal{T}). v=Enc(X,T).。由窗口i索引,我们的基于自相关的对比损失,称为AutoCon,然后在表示 { v ( i ) } i = 1 N \{\boldsymbol{v}^{(i)}\}_{i=1}^{N} {v(i)}i=1N与相应的时间序列 { T ( i ) } i = 1 N \{\mathcal{T}^{(i)}\}_{i=1}^{N} {T(i)}i=1N上计算为:

在这里插入图片描述
其中Sim(·,·)度量两个表示之间的相似性(例如,最大池 υ ( i ) \boldsymbol{\upsilon}^{(i)} υ(i)之间的余弦相似性与时间轴(Yue et al., 2022)), r ( i , j ) = r ( T ( i ) , T ( j ) ) r^{(i,j)}=r(\mathcal T^{(i)},\mathcal T^{(j)}) r(i,j)=r(T(i),T(j))表示两个窗口之间的全局相关性。在训练过程中,总共有 N × ( N − 1 ) N\times(N-1) N×(N1)对以(i,j)为索引的可能配对。每对配对(即作为锚对)通过将锚对的全局自相关性 r ( i , k ) r^{(i,k)} r(i,k)低于 r ( i , j ) r^{(i,j)} r(i,j)的任何配对视为负对,将自己指定为相对正的配对。图3描述了我们在给定批处理中选择策略的示例案例。由于每次迭代中都有一组不同的窗口形成批处理,我们期望表示反映所有可能距离的全局自相关性。相对选择策略不能保证正窗口具有接近1的高相关性;它只需要比同一批中的其他负窗口具有更高的相关性。因此,我们引入 r ( i , j ) r^{(i,j)} r(i,j)作为权重,以区分具有不同程度相关性的正对,类似于焦损(Lin et al., 2017)。为了最小化 L A u t o C o n , \mathcal{L}_{\mathrm{AutoCon}}, LAutoCon,,编码器学习表示,使高相关性的对比低相关性的对更接近。

与传统的基于对比的方法相比,我们的AutoCon提供了几个显著的优势。首先,尽管AutoCon是一种无监督表示方法,但它不依赖于数据增强,这在大多数基于对比的方法中很常见(Tonekaboni等人,2021;Yue等人,2022;Woo et al., 2002)。基于增强的方法不仅增加了增强过程带来的额外计算成本,而且增加了增强数据的前后向处理。此外,现有的对比学习方法只考虑暂时接近的样本作为窗口内的正对。这最终无法适当地学习彼此相距较远但由于长期周期性而相似的窗口的表示。因此,我们的方法计算效率高,能够学习长期表征,有效地提高了预测长期变化的能力。

3.2 DECOMPOSITION ARCHITECTURE FOR LONG-TERM REPRESENTATION长期表示的分解体系结构

在这里插入图片描述
图4:为长期表示和预测而重新设计的体系结构概述

现有模型通常采用具有季节分支和趋势分支的分解体系结构,以实现解纠缠的季节和趋势预测。为了强调趋势是部分被窗口捕获的长期变化,我们将趋势分支视为长期分支,将季节性分支视为短期分支。我们的AutoCon方法被设计为学习长期表示,因此很自然地不会在短期分支中使用它来强制执行长期依赖。然而,将AutoCon与当前的分解架构集成是一个挑战,因为两个分支共享相同的表示(Wu et al., 2021;周等,20022b;Liu et al., 2022b),或者长期分支由一个不适合学习表示的线性层组成(Zeng et al., 2023;Wang et al., 2023)。此外,我们观察到最近的基于线性的模型(Zeng et al., 2023)在短期预测方面优于复杂的深度模型,这让人怀疑深度模型是否需要学习高频变化。基于这些考虑,我们重新设计了一个具有良好定义的现有块的模型架构,以尊重短期的时间局部性和长期预测的全局性,如图4所示。我们的分解体系结构有三个主要特性。

Normalization and Denormalization for Nonstationarity 首先,我们使用窗单元归一化和反归一化方法(公式4)(Kim et al., 2021;Zeng et al., 2023),结果如下:
在这里插入图片描述
其中 X ˉ \bar{\mathcal{X}} Xˉ是输入序列的均值。这些简单的方法有助于有效缓解现实世界时间序列的非平稳性带来的分布移位问题(Kim et al., 2021)。

Short-term Branch for Temporal Locality短期分支时间局部性 接下来,我们观察到短周期变化通常在输入序列中重复多次,并表现出与时间闭合序列相似的模式。这种短期变化的局部性支持了最近基于线性的模型的成功(Zeng et al., 2023),该模型仅使用相邻序列的序列信息。因此,我们采用线性层进行短期预测如下:

在这里插入图片描述

Long-term Branch for Temporal Globality时间全局的长期分支 设计用于应用AutoCon方法的长期分支采用编码器-解码器架构。有足够能力学习长期表示的编码器利用顺序信息和全局信息(即从T派生的基于时间戳的特征)如下:
在这里插入图片描述
只要在处理长序列时不存在问题,编码器的网络选择是灵活的。我们选择了时间卷积网络(Bai et al., 2018) (tcn),它广泛用于学习时间序列表示(Yue et al., 2022),因为它的计算效率很高。解码器采用多尺度移动平均(MA)块(Wang et al., 2023),不同核大小 { k i } i = 1 n \{k_{i}\}_{i=1}^n {ki}i=1n,基于表示v捕获多个周期,如下所示:
在这里插入图片描述
长期分支头部的MA块平滑了短期波动,自然鼓励分支关注长期信息。我们重新设计的架构通过目标函数L进行优化如下:

在这里插入图片描述
其中均方误差(MSE)和AutoCon损失与权值λ作为超参数相结合。超参数敏感性分析见附录A.6。每个操作的详细描述(例如,线性,填充和mlp)可以在附录A.1中找到。

四、实验

为了验证我们提出的方法,我们在来自六个领域的九个真实数据集上进行了广泛的实验:机械系统(ETT)、能源(Electricity)、交通(traffic)、天气(weather)、经济(Exchange)和疾病(ILI)。我们遵循标准协议(Wu et al., 2021),并按时间顺序按6:2:2的比例将所有数据集分成训练集、验证集和测试集。我们选择具有不同架构的最新基线模型,分为基于线性的(Zhou et al., 2022a;Zeng et al., 2023),基于cnn的(Wu et al., 2023;Wang et al., 2023),以及基于变压器的(Zhou et al., 2022b;刘等,2022b;Nie et al., 2023)。此外,我们将我们的模型与两个模型(Challu et al., 2023;Zhang & Yan, 2023),专注于学习多变量预测的渠道间依赖关系。附录A提供了关于数据集和基线实现的更详细信息。

4.1 MAIN RESULTS

Extended Long-term Forecasting扩展长期预测 为了更好地评估我们的模型在预测长期变化方面的性能——随着预测长度的延长,预测的重要性往往会增加——我们设计了实验来扩展每个数据集的预测长度O。传统的基准实验通常预测720步,这种转变使我们能够在更具挑战性的预测场景中探索模型的能力。对于总长度较长的数据集,如ETTh、Electricity、Traffic和weather,我们将预测长度从720增加到2160。此外,对于总长度较短的Exchange和ILI数据集,我们分别将输出长度扩展到1080和112。总体而言,表1显示,我们的AutoCon模型在单变量设置中获得了42次第一名,优于最先进的基线。当根据长度检查性能变化时,与其他最佳模型相比,我们的模型在预测未来时显示出显着的改进(例如,平均而言,在96和720时误差减少了5%,在1440和2160时误差减少了12%)。这些结果从经验上证明了我们的AutoCon在有效捕获存在于窗口之外的长期变化方面的贡献。

Dataset Analysis 由于我们的目标是学习长期变化,我们模型的性能改进可能受到长期变化的大小和数量的影响。图5显示了每个数据集特有的各种年度商业周期和自然周期。例如,ETTh2和Electricity数据集与重复多次的几个滞后峰具有很强的长期相关性。因此,我们的方法在ETTh2和Electricity数据集上表现出了显著的性能提升,与次优模型相比,分别减少了34%和11%的误差。相比之下,Weather数据集在窗口外的相关性比上述两个数据集相对较低。这导致我们的模型在Weather数据集上显示出最小的改进,误差减少了3%。因此,对于具有较强长期相关性的数据集,我们的方法的优势表现得更加强烈,从而从经验上验证了我们的贡献。

表1:除I = 14的Illness数据集外,各模型不同预测长度为O,最佳输入长度I∈{48,96,168,336}的扩展长期预测结果。红色和蓝色数字分别表示最佳和次佳结果。ETTh1和ETTm的完整基准测试可在附录D中获得。

在这里插入图片描述

在这里插入图片描述
图5:四个数据集不同程度地存在窗外自相关。

Extension to Multivariate Forecasting多元预测的扩展 如表2所示,我们的方法适用于多变量预测,方法是在每个通道的基础上计算自相关性,然后遵循通道独立方法(Nie et al., 2023)。附录A.2描述了多变量设置的详细信息。

4.2 MODEL ANALYSIS

Temporal Locality and Globality 如第3.2节所述,我们提出了一种模型架构,它结合了局部性线性模型和全局深度模型的优点。图6(a)表明,对于高达96个单位的短期预测,线性模型(DLinear)比深度模型(如TimesNet、Nonstationary和FEDformer)实现了更低的错误率。然而,随着预测长度的延长,DLinear的误差开始发散。相反,即使随着预测长度的增加,TimesNet和Nonstationary保持一致的错误率,但在短期预测中表现不如线性模型。这些观察结果作为我们分解体系结构的动机,我们的分解体系结构精通短期和长期预测(图6(a)中的蓝线)。

Ablation Studies在这里,我们进行了消融研究来验证我们方法的每个组成部分。图6(b)显示了在全模型上进行消融研究的结果,当短期分支被移除时,短期预测出现了明显的误差。当长期分支被移除时,它显示出长期预测的显著错误。此外,如果没有集成我们的AutoCon,长期性能就会下降。如表3所示,这些趋势在各种数据集中是一致的。在这里插入图片描述
图6:根据预测长度o的预测误差(MSE)比较(a)与基线模型的比较,(b)我们的方法在ETTh2数据集上的消融比较。
表2:不同预测长度O∈{96,192,336,720},输入长度I = 96的ETT数据集的多元预测结果。由于篇幅有限,我们只报告四种长度设置的平均性能。完整的基准测试可在附录D中获得。
在这里插入图片描述
*表示结果,取自TimesNet (Wu et al., 2023)。

4.3 COMPARISON WITH REPRESENTATION LEARNING METHODS 与表征学习方法的比较

在这里插入图片描述
图7:该图显示了UMAP (McInnes et al., 2018)对ETTh2数据集上不同四种方法表示的可视化结果。我们的AutoCon在相邻月份之间显示出清晰的连续性和集群性,表明对长期变化的理解。相比之下,其他模型似乎缺乏这种可感知的一年长期结构,可能是由于窗口内有限的表征学习。

我们还证明了与现有的时间序列表示学习方法相比,我们的方法在捕获窗口外的长期表示方面的有效性。TS2Vec (Yue et al., 2022)和CoST (Woo et al., 2022a)都是无监督的对比学习方法,TS2Vec只考虑同一时间指标的增强数据作为正对,CoST使用考虑周期性的损失,但两者都有只在一个窗口内有效的限制。因此,虽然他们在相对较短的时间内表现出竞争力,但他们无法准确预测长期的情况。LaST (Wang et al., 2022)是一种基于分解的表示学习方法,在短期预测中也表现出竞争力,但在长期预测中却无法准确预测。图7显示了AutoCon与其他三种方法的学习表示。附录C.2提供了实验方案和进一步的对比实验。
在这里插入图片描述
在这里插入图片描述

4.4 COMPUTATIONAL EFFICIENCY COMPARISON 计算效率比较

我们提出的模型在其他深度模型中具有竞争力的计算效率。具体来说,在ETT数据集上,我们的模型在没有AutoCon的情况下显示出31.1 ms/iter的计算时间,仅次于线性模型。即使在训练过程中集成了AutoCon,由于没有增强过程,整个训练过程中只进行一次自相关计算,计算成本也没有明显增加(33.2 ms/iter)。因此,我们的模型的计算效率超过了现有的基于变压器的模型(非平稳365.7 ms/iter)和最近最先进的基于cnn的模型(TimesNet 466.1 ms/iter)。详细的比较见附录B.4。

5 DISCUSSION & LIMITATIONS

我们提出的方法通过学习窗口之外的长期变化来减轻滑动窗口方法的约束。然而,我们研究了我们指出的滑动窗口的限制是否可以通过简单地增加窗口长度而不使用我们的方法来解决,并阐明了我们的方法的局限性。

我们可以用一个很长的窗口来捕捉长期的变化吗?给定长度为T的时间序列S,窗口数M为T−(I +O) + 1。这意味着随着输入长度I(即数据复杂性)的增加,同时保持输出长度O固定,可用于学习的数据实例(即窗口)的数量减少,可能使模型更容易出现过拟合(Park et al., 2023),如图8所示。因此,输入序列要足够长以覆盖数据中存在的所有长期变化是具有挑战性的,并且模型经常难以捕获窗口外的变化。因此,我们指出的关于滑动窗口方法的局限性在大多数情况下是有效的,值得解决。附录B.1给出了增加窗长的综合实验和实证结果。

在这里插入图片描述
图8:图中显示了在ETTh1上输入长度从192逐渐增加到960,输出长度为720的情况下,5个模型的训练(蓝线)和测试(橙线)MSE损失迹图。在图中,红色水平线表示输入-96设置下的测试损失。

自相关能捕捉到所有的长期变化吗? 虽然自相关是捕获某些长期变化的有价值的工具,但其线性假设限制了其处理现实世界时间序列数据中普遍存在的非线性模式和关系的有效性。通过考虑高阶相关性、非线性依赖关系和外部因素,我们有可能实现更准确、更全面的长期预测。

在这里插入图片描述
在这里插入图片描述
我们重新设计的模型和AutoCon是基于TSlib代码库实现的。我们的源代码可以在补充的zip文件中访问。

A.2多元预测的细节

多变量预测有两种代表性的方法:信道混合方法和信道独立方法。通道混合方法包括将同一步骤的多个通道的值映射到嵌入空间中,并从该嵌入序列中提取时间依赖性。这种方法已被多篇论文采用(Zhou et al., 2022b;Wu et al., 2023;Zhang & Yan, 2023)。另一方面,通道独立方法保留每个通道的信息而不将它们混合,并独立地学习每个通道内的时间模式。最近,该方法已被用于高性能模型,如PatchTST (Challu et al., 2023)和Linear模型(Zeng et al., 2023),在当前的基准数据集上表现出优异的性能。在实现方面,每个通道被视为计算的批处理轴。这有效地增加了通道数量的训练数据量,并且模型参数跨多个通道共享。根据通道无关方法,我们首先分别计算每个通道的自相关性,以便计算AutoCon。然后,我们根据这些自相关性训练适合每个通道的表示。

A.3数据集的详细信息
在本文中,我们使用了来自不同领域的六个真实世界数据集:机械系统(ETT)、能源(Electricity)、交通(traffic)、天气(weather)、经济(Exchange)和疾病(ILI)。表5总结了每个数据集的统计信息。作为主流基准,ETT数据集被广泛用于评估长期预测方法Zhou et al. (2021);Wu et al. (2021);Zhou等人(2022b);Zeng等人(2023);Wu等人(2023)。ETT由关键指标(如油温、负载等)组成,这些指标是在两年的时间里从电力变压器收集的。这些数据集根据位置(ETT1和ETT2)和时间间隔(15分钟和1小时)分为四个不同的集。电力数据集捕获了321个客户从2012年到2014年的每小时用电量。另一方面,交通数据集汇编了来自加州交通部的每小时数据,详细介绍了旧金山湾区高速公路上不同传感器测量的道路占用率。天气数据集由21个气象指标组成,包括空气温度、湿度等,每隔10分钟记录一年的时间。外汇数据集记录了从1990年到2016年八个不同国家的每日汇率。最后,流感样疾病数据集包括2002年至2021年期间美国疾病控制和预防中心每周流感样疾病(ILI)患者数据记录。该数据集说明了诊断为ILI的患者相对于患者总数的比例。
在这里插入图片描述
A.4基线模型

在长期预测领域,自Informer出现以来,已经提出了许多模型。这些机型表现出了良好的性能和独特的新颖性。然而,将它们与表现不佳的模型(如基于rnn的模型和基于transformer的模型)进行比较,这些模型容易受到过拟合的影响。因此,我们的主要重点是在最新的建议中高性能和最先进的模型。我们针对七个预测基线和三个表示方法验证了我们的方法。所有模型都是使用PyTorch实现的。对于最新的预测模型,即TimesNet2、DLinear和NLinear3、MICN4、FiLM5、Nonstationary Transformer6和FEDformer7,我们使用了原作者发布的官方代码,而不是从零开始实现。

类似地,对于最近的表示方法,如LaST8、CoST9和TS2Vec10,我们使用了作者提供的官方代码,而不是从头开始实现模型。我们坚持每个模型的独特超参数,在参数搜索范围内进行调整,以产生最佳性能。但是,为了便于比较,对某些配置(例如输入长度和输出长度)进行了统一设置。更具体的评估方案将在下一节中介绍。
2https://github.com/thuml/Time-Series-Library
3https://github.com/cure-lab/LTSF-Linear
4https://github.com/wanghq21/MICN
5https://github.com/DAMO-DI-ML/NeurIPS2022-FiLM
6https://github.com/thuml/Nonstationary Transformers
7https://github.com/MAZiqing/FEDformer
8https://github.com/zhycs/LaST
9https://github.com/salesforce/CoST
10https://github.com/yuezhihan/ts2vec

A.5评估细节

在我们的实验中,我们的目标是评估模型捕获长期变化的能力,以便输出长度应该足够长,以受这些变化的影响。然而,要比以前的实验中使用的输出长度增加更多,需要考虑几个问题。因此,我们将标准评估方案的修改描述如下:
1.输入长度I被设置为14(对于ILI数据集)、48(对于Exchange数据集)、192(对于ETTm数据集)和96(对于其他数据集)。这些输入长度允许我们根据每个数据集的总长度,在有限的窗口长度内增加输出长度。
2.标准协议按照时间顺序将所有数据集分成训练集、验证集和测试集,ETT数据集的比例为6:2:2,其余数据集的比例为7:1:2。但是,由于其他数据集的窗口长度增加,验证集的填充不足。因此,我们对所有数据集采用6:2:2的比例。
3.对于逻辑上应该是非负的指标,天气数据集包含负值。这些错误的标签,如果不纠正,可能会妨碍准确的评估,由于缩放问题。我们通过用相邻的值填充它们来纠正这些错误。
除上述例外情况外,我们遵守所有实验的标准规程。

A.6超参数灵敏度
在这里插入图片描述
图9:根据AutoCon的lambda值,七个数据集的错误率:(左)均方误差(Mean squared Error),(右)均绝对误差(Mean absolute Error)。错误率是基于lambda计算的,它被设置为0.0作为参考点。当使用我们的AutoCon(用星型标记表示)时,所有数据集中的最佳性能都得到了实现。重要的是要注意,高lambda值并不一定意味着强烈的长期变化。

B附加实验

B.1 EXPERIMENTS ON WINDOW LENGTH

如第5节所述,我们考虑简单地增加窗口的长度,以尽可能多地捕获长期变化。此外,随着窗口长度的增加,用于学习的数据窗口的数量减少。毕竟,我们假设增加窗口长度会增加模型的输入复杂性,同时减少数据点的数量,使模型容易过度拟合。

图10和图11分别描述了为了预测ETTh1和ETTh2中的720步,当输入长度从192增加到920时的训练和测试损失。我们观察到,在不同容量和属性的5个模型中,随着输入规模的增加,整体测试损失趋于飙升或收敛,而训练损失则持续下降。在这里插入图片描述
图10:图中显示了在ETTh1上输出720设置下,5个模型随着输入长度逐渐增加的训练(蓝线)和测试(橙线)损失迹图。在图中,红色水平线表示我们的模型在输入-96设置下的性能。
在这里插入图片描述
图11:图中显示了在ETTh2上输出720设置下,5个模型随着输入长度逐渐增加的训练(蓝线)和测试(橙线)损失迹图。在图中,红色水平线表示我们的模型在输入-96设置下的性能。

同样,在图11中的DLinear情况下,由于容量有限,测试和训练损失同步下降。然而,我们认为这是一个欠拟合问题,因为测试误差高于我们的方法(见红线)。因此,我们通过经验证明,仅仅增加输入长度并不一定会提高长期预测的性能。此外,值得注意的是,非线性模型的复杂模型的计算成本随着序列长度的增加而显著增加。

B.2其他数据集的附加图6结果

此外,我们还提供了ETTh1(图12)和Electricity(图13)的结果,它们显示了长期变化。尽管在幅度上存在一些差异,但三个数据集的总体趋势是相似的。
在这里插入图片描述
图12:根据预测长度o的预测误差(MSE)比较(a)与基线模型的比较,(b)我们的方法在ETTh1数据集上的消融比较。在这里插入图片描述
图13:根据预测长度o的预测误差(MSE)的比较(a)与基线模型的比较和(b)我们的方法在电力数据集上的烧蚀比较。在这里插入图片描述
B.3长期分支的附加消融结果

增加长期分支的复杂性对于学习长期表示是必不可少的,但这并不是我们的方法优越的唯一原因。换句话说,即使增加了复杂性,在当前仅使用预测损失的框架中,捕获长期变化并不容易。作为主要贡献,使用AutoCon对于学习长期变化并导致性能改进至关重要。为了验证这一点,我们还提供了两个消融结果:DLinear和我们的模型的复杂性增加。首先,DLinear在长期和短期分支中只使用单一线性层。我们通过在长期分支中叠加具有激活函数的线性层来增加长期分支的复杂度。然而,如下表6所示,即使长期堆叠层,性能也趋于下降或保持相似。这表明在现有的分解体系结构中增加长期的复杂性是无效的。其次,下面的表7展示了分解体系结构中基于长期分支复杂性的性能变化。如果没有Autocon,我们的模型可能会稍微好一点,或者与第二好的模型相当。只有当使用AutoCon时,才能达到最高的性能。这进一步强调了我们提出的AutoCon准确预测长期变化的必要性。

B.4计算成本分析
考虑到大多数时间序列应用的实时性,计算效率是时间序列预测的关键因素(Dannecker, 2015;Iqbal et al., 2019;Torres et al., 2021)。随着预测范围的增加,窗口长度也会扩大,从而导致计算成本的增加。因此,评估模型的计算效率是必要的。图14说明了与基线模型相比,我们的模型通过单个批更新参数所需的时间。对于每个模型,计算成本是针对四种不同的输出长度(从96到2160)进行测量的。批量大小为32,所有测量都是在相同的GPU和服务器环境中独立进行的。首先,线性模型的参数数量最少,矩阵乘法运算简单,耗时最短。另一方面,TimesNet需要的时间最多,因为它提取多个周期,并为每个周期计算一个循环。基于Transformer的非平稳模型的计算复杂度与长度的关系为0 (W2),这解释了计算时间随长度的急剧增加。总的来说,我们的模型是仅次于线性模型的第二快,即使在训练中加入AutoCon,其计算成本也没有显著增加(从31.1 ms/iter增加到33.2 ms/iter)。因此,与线性模型相比,我们的方法能够实现优越的长期预测性能,同时比其他更复杂的模型需要更少的计算资源。主要文件第4.4节简要讨论了成本分析。

在这里插入图片描述

在这里插入图片描述
图14:该图说明了基线模型和我们的模型的计算成本的比较,计算成本以每单个批处理迭代(ms/iter)的毫秒为单位。通过将输出长度从96增加到2160来评估每个模型的计算成本。

B.5预测结果可视化

在这里插入图片描述
图15:该图显示了ETTh2中96-1440设置的预测结果的可视化,展示了我们的模型以及其他四个模型。

图15通过可视化ETTh2数据集中1440个步骤的预测结果,提供了五种不同模型的定性结果。在线性模型的情况下,误差随着预测距离的增加而增加,无法解释长期变化。非平稳模型和TimesNet模型虽然比线性模型更善于跟踪长期变化,但很难有效地捕获高频模式。另一方面,我们的模型成功地捕获了长期变化和高频模式。这可以归因于我们模型的结构,该模型旨在从短期和长期预测中获益。

B.6其他指标的评价结果

虽然现有的指标(即MSE和MAE)是长期预测评估的标准指标,但它们有局限性。具体地说,它们可能不能充分地捕捉诸如时间序列的形状和时间排列等方面,而这些方面对于预测模型的性能的全面评估是至关重要的。

为了解决这些限制,我们引入了两个基于动态时间扭曲(DTW)的额外指标(Sakoe & Chiba, 1978):形状DTW和时间DTW (Le Guen & home, 2019)。形状DTW侧重于预测序列的模式或形状与实际序列的相似性,从而深入了解模型捕获时间序列的潜在模式的能力。时间DTW评估预测序列与实际序列的一致性,突出模型在预测事件时间方面的准确性。

这些额外的指标为我们的模型性能提供了更细致入微的评估,特别是在MSE和MAE可能不足的领域。形状DTW和时间DTW的值越低表明性能越好,表明预测序列和实际序列之间的失真越小。如表8所示,我们的方法不仅在MSE和MAE方面表现优异,而且在这些以形状和时间对齐为重点的指标方面也表现优异。

在这里插入图片描述

C表征分析

C.1表示相似性的细节

在图2中,我们在模型中使用了三条基线,并在最终投影层(TimesNet)之前或编码器层(PatchTST, FEDformer和Ours)之后提取了每个基线的表示。我们可视化表示的主要目的是展示长期相关性的学习。为了更清楚地显示,我们应用了一种滤波方法来平滑给定窗口内的短期波动。我们还提供了原始的表示结果,这些结果对每个基线都进行了放大,没有平滑短期波动,如图16所示。图16显示了三个基线模型学习了窗口内的短期相关性,尽管它们不学习长期相关性。

这个发现中有趣的一点是,现有模型试图通过利用时间戳信息来解决窗口长度的限制。实际上,TimesNet、FEDformer和我们的模型使用时间戳获得表征,并将它们合并到输入序列中,而PatchTST不使用时间戳。然而,不仅PatchTST,而且TimesNet和FEDformer都不能有效地捕获年循环模式,尽管使用与我们模型相同的时间戳。这些故障是值得注意的,特别是考虑到电力时间序列,它显示了一年长的周期性。这些结果表明,即使给定输入序列和时间戳,仅依靠现有的预测损失,模型学习年模式也是具有挑战性的。因此,这个结果证明了我们的AutoCon损失的必要性。此外,为了证明长期表征的出现是合理的,而不考虑模型的结构方面,我们提供了在我们的模型中不使用AutoCon的消融模型的表征的额外结果。如图17所示,没有AutoCon的模型也表现出弱周期性,但与其他基线类似,与完整模型相比,表示相似性仍然相对平坦。

C.2表征的可视化

我们将我们的AutoCon方法与三种用于提高预测性能的表示学习方法进行了比较。TS2Vec和CoST有一个两阶段的学习框架,其中他们使用脊回归模型进行时间序列预测,使用基于深度学习的模型进行表示学习。另一方面,LaST和我们的方法采用端到端学习框架,其中表示和时间序列预测学习同时发生。

图7给出了四种方法在ETTh2数据集上的表示结果。为了研究每种方法是否学习了与长期变化相关的表示结构,我们提取了与所有训练时间步相对应的表示,并通过UMAP通过时间戳派生的月份标签将其可视化。我们的模型清楚地显示了相邻月份之间的连续性,并展示了定义良好的聚类,这些属性在其他模型中没有看到。似乎其他模型没有学习识别窗口外一年长期变化所需的结构,因为它们的表示学习仅限于窗口内。在这里插入图片描述
图16(上)电力时间序列,包括窗口大小以外的长期变化。(下)绘制了锚定窗口ww2与包括W1和W3在内的所有其他窗口之间三个基线模型的表示相似性。
在这里插入图片描述
图17(上)电力时间序列,包括窗口大小以外的长期变化。(下)绘制了锚定窗口ww2与包括W1和W3在内的所有其他窗口之间的模型(使用AutoCon和不使用AutoCon)的表示相似性。

C.3与两个自监督损失的附加比较

我们设计并提供了基于HierCon (Yue等人,2022)和SupCon (Khosla等人,2020)的两个可能的自监督目标的结果,它们可以合并到我们的双流模型结构中。HierCon诱导两个部分重叠窗口的表示彼此接近,而SupCon鼓励编码器学习具有相同月份标签的窗口的接近表示。使用我们的模型架构测试了两个SSL目标,仅替换了AutoCon损失。如表9所示,与没有任何SSL丢失的情况相比,对于长度为96的短期预测,HierCon在ETTh1和ETTh2上的性能略有提高,但在长期预测中表现较差,因为它只强调时间接近性。SupCon利用了窗口长度以外的月度信息,即使在长期预测中也能提高性能。然而,SupCon只能学习一个预定义的周期,不像AutoCon。因此,SupCon在通过自相关学习时间序列中存在的周期性方面表现出比AutoCon更低的性能。

D完整基准测试

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
表11:带置信区间的扩展长期预测完整基准。“S”表示常规实验的长度,“L”表示新延长的实验设置。非平稳在ETTm1和ETTm2数据集的output-4320设置处存在内存不足(OOM)问题。


  • 9
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

萧宛亦

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值