TSMixer: Lightweight MLP-Mixer Model for Multivariate Time Series Forecasting

系列文章目录

TSMixer:用于多变量时间序列预测的轻量级MLP-Mixer模型 KDD23



摘要

transformer因其捕捉长序列相互作用的能力而在时间序列预测中获得了广泛的应用。然而,它们的内存和计算密集型需求构成了长期预测的关键瓶颈,尽管在计算感知的自注意模块方面取得了许多进步。为了解决这个问题,我们提出了TSMixer,一个由多层感知器(MLP)模块组成的轻量级神经架构。TSMixer设计用于多变量预测和对补丁时间序列的表示学习,为变压器提供了有效的替代方案。我们的模型从计算机视觉中MLP-Mixer模型的成功中获得灵感。我们展示了将Vision MLP-Mixer用于时间序列所涉及的挑战,并引入了经验验证的组件以提高准确性。这包括一种新颖的设计范例,将在线协调头附加到MLPMixer主干,用于显式地建模时间序列属性,如层次结构和通道相关性。我们还提出了一种混合信道建模方法,以有效地处理不同数据集的噪声信道相互作用和泛化,这是现有补丁信道混合方法中的一个常见挑战。此外,在主干中引入了一个简单的门控注意机制来优先考虑重要功能。通过合并这些轻量级组件,我们显著提高了简单MLP结构的学习能力,以最小的计算使用量胜过复杂的Transformer模型。此外,TSMixer的模块化设计使其能够兼容监督和屏蔽自监督学习方法,使其成为时间序列基础模型的有前途的构建块。TSMixer在预测方面比最先进的MLP和Transformer模型高出8-60%。它还优于最新的Patch-Transformer模型的强大基准测试(1-2%),内存和运行时间显著减少(2-3X)。

•应用计算→预测;•计算方法→神经网络。
关键词时间序列,预测,变压器,MLP-Mixer


提示:以下是本篇文章正文内容

一、介绍

多元时间序列预测是在给定时间序列历史值的情况下,预测多个(可能)相关时间序列在未来时间点的未来值的任务。它在天气预报、交通预测、工业过程控制等方面有着广泛的应用。这个长达十年的问题在过去已经通过几种统计和ML方法得到了很好的研究[1],b[13]。最近,基于Transformer[27]的模型由于具有捕获长序列依赖性的强大功能,在长期多变量预测中变得越来越流行。在过去的几年里,有几种变压器架构适合于这项任务,包括Informer [35], Autoformer [28], FEDformer[28]和Pyraformer[18]。然而,Transformer在语义丰富的NLP领域的成功并没有很好地转移到时间序列领域。其中一个可能的原因是,尽管变形金刚中的位置嵌入保留了一些排序信息,但排列不变自关注机制的性质不可避免地导致了时间信息的丢失。这一假设已经在[32]中得到了经验验证,其中一个令人尴尬的简单线性(DLinear)模型能够优于上述大多数基于变压器的预测模型。

此外,与句子中的单词不同,时间序列中的单个时间点缺乏重要的语义信息,可以很容易地从邻近的点推断出来。因此,大量的建模能力被浪费在学习逐点的细节上。PatchTST[20]通过将输入时间序列分割成小块并应用变压器模型解决了这个问题,与现有模型相比,产生了更好的性能。然而,PatchTST采用了一种纯粹的通道1独立方法,这种方法并没有明确地捕获跨通道的相关性。PatchTST已经证明,与通道混合相比,通道独立可以提高性能,通道混合在被馈送到模型之前只是简单地连接。这种简单的混合方法可能导致变压器初始层通道之间的噪声相互作用,使得在输出端解开它们变得具有挑战性。CrossFormer[2]是最近另一项改进通道混合技术的贴片变压器,也面临着这个问题(见附录表9)。因此,有必要明确地建模通道相互作用,以抓住机会性的精度提高,同时有效地减少通道间的大量噪声相互作用。此外,尽管PatchTST通过打补丁减少了时间和内存开销,但它仍然在底层使用多头自关注,即使在补丁级别应用也是计算开销很大。

近年来,在计算机视觉领域提出了一系列以“MLP- mixers”为核心的多层感知器(MLP)模型[17,23,25]。这些模型重量轻,速度快,并实现与视觉变压器模型相当或更好的性能,同时完全消除了计算密集的多头自关注[23]的需要。此外,MLP-Mixer的默认架构不会干扰输入的时间顺序,这使得它非常适合时间序列问题,并解决了DLinear[32]中提出的问题。在这一点上,我们提出以下重要问题- MLP-Mixer模型是否可以为多变量时间序列预测提供卓越的性能?如果是,需要哪些时间序列自定义?

对此,我们表明,对时间序列采用MLP-Mixer并不是微不足道的,也就是说,仅仅应用一些输入和输出形状修改的普通MLP-Mixer将不会使其成为一个强大的模型,并且与最先进的模型相比,它的性能不是最优的。因此,我们提出了TSMixer,一种新颖的MLP-Mixer架构,用于精确的多元时间序列预测。像PatchTST一样,TSMixer也是基于补丁的,并遵循学习一个共同“主干”的模块化架构,以捕获数据的时间动态作为补丁表示,并根据各种下游任务(例如预测)附加和微调不同的“头部”。骨干被认为是任务独立的,可以跨多个数据集学习,具有屏蔽重建损失,而头部是特定于任务和数据的。

TSMixer的主要亮点如下:

(1) TSMixer是一种基于补丁的轻量级神经系统架构,仅使用MLP模块设计,利用各种固有的时间序列特征进行准确的多元预测和表示学习。
(2) TSMixer提出了一种新颖的设计范例,将在线协调头附加和调整到MLP- mixer主干上,显著增强了简单MLP结构的学习能力,在使用更少的计算资源的同时胜过复杂的Transformer模型。这项研究首次强调了在时间序列建模的混合器样式主干架构的预测头部融合在线调和方法的好处。
(3)具体来说,TSMixer提出了两种新的在线调节头,通过利用以下内在时间序列属性:分层斑块聚集和跨通道相关性来调整和改进预测。
(4)为了实现有效的跨通道建模,TSMixer采用了一种新的“混合”通道建模方法,通过增加一个具有跨通道调和头的信道独立主干。这种混合架构允许骨干网泛化具有不同通道的不同数据集,而协调头则有效地学习特定于任务和数据的通道交互。该方法有效地处理了信道间的噪声相互作用,这是现有的补丁信道混合方法所面临的挑战。
(5)为了有效的长序列建模,TSMixer引入了一个简单的门控注意力(Gated Attention3),引导模型关注重要特征。这,当与分层补丁调和头和标准MLP-Mixer操作增强时,可以有效地建模长序列交互,并消除了复杂的多头自关注块的需要。(6)最后,TSMixer的模块化设计使其能够使用监督和屏蔽自监督学习方法,这使其成为时间序列基础模型[6]的潜在构建块。

我们对7个流行的公共数据集进行了详细的实证分析,其中。TSMixer超越了所有现有的基准测试,极大地减少了训练时间和内存使用。主要基准测试的快照(相对MSE改进)如下:

•TSMixer的性能比DLinear高出8%(表2)。
•TSMixer的性能略微优于PatchTST 1-2%,但在训练时间和内存使用方面显著减少了2-3倍。(表2、3、6、7)。
•TSMixer的性能比所有其他最先进的产品高出20-60%。

在整个文本中,我们将使用“通道”来表示多元数据中的单个时间序列(即多元时间序列是多通道信号)。这种“对账”不同于分层预测中的标准对账。在这里,和解的目标是补丁聚合和跨通道相关,并且在训练期间在线完成。我们称之为“在线”,因为它是作为整体损失计算的一部分学习的,而不是作为单独的离线过程。

二、相关工作

基于Transformer的时间序列模型:变形金刚b[27]在NLP领域的成功激发了时间序列研究人员提出基于TS变形金刚的模型。由于Transformer架构的二次时间和内存复杂性,采用NLP Transformer处理时间序列任务的一个主要困难在于处理更长的输入序列长度(퐿)。为了解决这个问题,已经提出了几个计算感知的时间序列变压器模型,如Informer [35], Autoformer [28], Pyraformer[18]和FEDformer[36],它们修改了自关注机制以实现푂(퐿)或푂(퐿log(퐿))的复杂性。

基于Patch的时间序列模型: 上述工作主要将粒度级时间序列提供给Transformer模型,因此,它们侧重于在每个时间点上学习注意力。相比之下,PatchTST[20]和CrossFormer[2]在将其提供给变形金刚以学习跨补丁表示之前启用补丁。PatchTST遵循通道独立方法,相反,CrossFormer遵循通道混合方法。

在这里插入图片描述
图1:高级模型体系结构。

**视觉领域的MLP-Mixer:**近年来,多层感知器(MLP)的强度在视觉领域得到了重新定义[17,23,25]。[23]的思想是通过一系列排列操作来转换输入图像,这些操作本质上强制混合补丁内部和补丁之间的特征,以捕获短期和长期依赖关系,而不需要自关注块。MLP-Mixer的性能与CNN和Transformer类似。为了进一步扩展,在gMLP[17]中,作者建议使用带有空间门控单元(SGU)3的MLP-Mixer,而ResMLP[25]建议使用带有剩余连接的MLP-Mixer。

**基于MLP的序列/时间序列模型:**最近在时间序列领域也进行了类似的研究。Zhang等人提出了基于MLP和两种复杂的降采样策略来改进预测的LightTS。DLinear模型[32]也是将时间序列分解为趋势分量和季节性分量后的简单线性模型。DLinear质疑《变形金刚》的有效性,因为它很容易击败基于《变形金刚》的sota。Li等人提出了MLP4Rec,这是一种纯粹基于mlp的顺序推荐任务架构,用于捕获跨时间、通道和特征维度的相关性。

三、方法

3.1 Notations

在本文中,我们使用了以下变量名: X c × L X_{c\times L} Xc×L

3.2 Training methodologies

TSMixer有两种训练方法:监督和自我监督。受监督的训练遵循图1右侧所示的“预测”工作流。首先,输入历史时间序列经过一系列转换(规范化、修补和置换)。然后,它进入TSMixer主干,负责主要的学习过程。预测头将主干的输出嵌入转换为基本预测。可以训练该模型以最小化基本预测的均方误差(MSE): L ( Y , Y ^ ) = ∥ Y − Y ^ ∥ 2 2 . \mathcal{L}\left(Y,\hat{Y}\right)=\left\|Y-\hat{Y}\right\|_2^2. L(Y,Y^)= YY^ 22.我们引入了两个额外的在线预测协调头,如果激活,可以调整基本预测并通过利用跨通道和补丁聚合信息产生更准确的预测。当这些调节头中的任何一个或两个被激活时,一个定制的基于mse的目标函数被用于调整后的预测。详细的讨论将在第3.3.7节中进行。

自我监督训练分两个阶段进行。首先,使用自监督目标对模型进行预训练(参见图1中的“预训练”工作流)。然后,通过对监督下游任务的“预测”工作流对预训练模型进行微调。自监督预训练已被发现对各种NLP[8]、视觉[5]和时间序列任务[20]都很有用。与BERT在NLP领域的b[8]掩码语言建模(MLM)类似,我们采用了掩码时间序列建模(MTSM)任务。MTSM任务随机对一小部分输入补丁应用掩码,训练模型从未掩码的输入补丁中恢复掩码补丁。预训练工作流中的其他输入转换与预测工作流中的相同。MTSM任务最大限度地减少掩码补丁上的MSE重建错误。TSMixer的模块化设计使其能够通过仅改变模型头部(并保持主干相同)进行监督或自监督训练。

3.3 Model components

在这里,我们将讨论引入普通MLP-Mixer以提高性能的建模组件。高级体系结构如图1所示。对于随机梯度下降(SGD),通过移动窗口技术从 X \mathbf{X} X填充每个小批 X b × s l × c B X_{b\times sl\times c}^{B} Xb×sl×cB。图1显示了一个小批的向前传递及其形状

3.3.1 Instance normalization.

输入时间序列段经过可逆实例归一化(RevIN)[15]。RevIN将数据分布标准化(即去除平均值并除以标准差)以处理时间序列中的数据移位。

在这里插入图片描述
图2:TSMixer中的不同主干和混合器层的体系结构。

3.3.2 Patching

每个单变量时间序列以s的步长分割成重叠/不重叠的小块。对于自监督训练流,补丁必须严格不重叠。将小批 X b × s l × c B X_{b\times sl\times c}^{B} Xb×sl×cB重塑为 X b × n × p l × c P X_{b\times n\times pl\times c}^{P} Xb×n×pl×cP,其中 pl \text{pl} pl表示patch长度,而n为patch的个数(因此, n = ⌊ ( s l − p l ) / s ⌋ + 1 ) . n=\lfloor(sl-pl)/s\rfloor+1). n=⌊(slpl)/s+1).)。然后将patch后的数据置换为 X b × c × n × p l P ′ X_{b\times c\times n\times pl}^{P^{\prime}} Xb×c×n×plP,并输入TSMixer骨干模型。打补丁将模型的输入令牌数量减少了s,因此,与标准的逐点Transformer方法[20]相比,可以显著提高模型运行时性能。

3.3.3 TSMixer backbone.

图2a中显示了三种可能的主干。香草主干(V-TSMixer)在传递到下一层之前,将输入上的通道和补丁尺寸( c × p l c\times pl c×pl)平坦化。这种方法通常在Vision MLP混合技术中被遵循,因此作为一个基准。我们提出了两种新型主干网:信道独立主干网(CITSMixer)和信道间主干网(IC-TSMixer)。它们的MLP混频器层架构不同。CI-TSMixer主干受到PatchTST[20]模型的启发,其中MLP Mixer层跨通道共享,这迫使模型跨通道共享可学习的权重。这导致模型参数的减少。此外,CI-TSMixer使我们能够使用TSMixer对多个数据集进行自监督建模,每个数据集具有不同数量的通道,这是V-TSMixer无法做到的。在IC-TSMixer中,一个额外的通道间混频器模块在主干中被激活,以显式捕获通道间依赖关系。所有这些骨干都将与广泛的实验进行比较。

注意,所有TSMixer主干都从一个线性补丁嵌入层开始(参见图2a)。它将每个patch独立转换成一个嵌入: X b × c × n × h f E = A ( X P ′ ) X_{b\times c\times n\times hf}^{E}=\mathcal{A}\left(X^{P^{\prime}}\right) Xb×c×n×hfE=A(XP)。对于CI-TSMixer和ICTSMixer主干线, A ( ⋅ ) \mathcal{A}(\cdot) A()的权重和偏置是跨通道共享的,而对于V-TSMixer则不是。由于V-TSMixer中的通道是完全平坦化的,因此V-TSMixer中的 A ( ⋅ ) \mathcal{A}(\cdot) A()没有任何多通道的概念(即c = 1)。

3.3.4 MLPMixerlayers.

tsmmixer主干像《变形金刚》中的编码器堆叠一样堆叠一组混频器层。直观地说,每个混频器层(图2b)试图学习三个不同方向上的相关性:(i)不同patch之间,(ii) patch内部隐藏特征之间,以及(iii)不同通道之间。前两种混合方法是从视觉MLP-Mixer中采用的,而最后一种混合方法是专门针对多元时间序列数据提出的。patch间混频器模块采用共享MLP( w e i g h t   d i m e n s i o n = n × n \mathrm{weight~dimension}=n\times n weight dimension=n×n)学习不同patch之间的相关性。intra patch mixer块的共享MLP层混合了隐藏特征的维度,因此权重矩阵的维度为 h f × h f hf\times hf hf×hf。提议的通道间混频器( w e i g h t   m a t r i x   s i z e = c × c \mathrm{weight~matrix~size}=c\times c weight matrix size=c×c)混合了输入通道维度,并试图在多变量上下文中捕获多个通道之间的相关性。在MLP4Rec[16]中提出了这种通道间混频器用于事件预测问题,并研究了其在时间序列域的适用性。请注意,通道间混频器块仅包含在IC-TSMixer主干中,而不包含在CI-TSMixer和V-TSMixer主干中(图2b)。混合层和混合块的输入输出分别用 X b × c × n × h f M X_{b\times c\times n\times hf}^{M} Xb×c×n×hfM表示。根据每个混频器块中聚焦的维度,对输入进行相应的重塑,以学习聚焦维度上的相关性。重塑最终会被还原,以在块和层之间保留原始输入形状。三个混频器模块均配备MLP模块(附录图6a)、层归一化[3]、残留连接[12]和门控注意。前三个组件是MLP-Mixer的标准组件,而门控注意力块描述如下。

3.3.5 Gatedattention (GA) block

时间序列数据通常有许多不重要的特征,这些特征会混淆模型。为了有效地过滤掉这些特征,我们在每个混频器组件的MLP块之后添加了一个简单的门控注意[4]。遗传算法就像一个简单的门控函数,根据它的特征值,概率地放大主要特征,缩小不重要特征。注意权值的推导公式为: W b × c × n × h f A = softmax ⁡ ( A ( X M ) ) \mathbf{W}_{b\times c\times n\times hf}^A=\operatorname{softmax}\left(\mathcal{A}\left(\mathbf{X}^M\right)\right) Wb×c×n×hfA=softmax(A(XM))。门通注意模块的输出是通过在注意权重和从混合器模块出来的隐藏张量之间进行点积得到的: X G = W A ⋅ X M X^{G}=W^{A}\cdot X^{M} XG=WAXM(附录图6b)。通过标准混合器操作增强遗传算法有效地引导模型专注于重要特征,从而改进长期交互建模,而不需要复杂的多头自我关注。

3.3.6 Model heads.

基于训练方法(即监督或自监督),我们将预测或预训练头部添加到骨干中。两个头部都使用了一个简单的线性层,在将所有补丁上的隐藏特征平坦化后,使用dropout(附录图7)。默认情况下,头部在通道上共享相同的权重。预测头的输出是预测的多元时间序列( Y ^ b × f l × c , \hat{Y}_{b\times fl\times c}, Y^b×fl×c,),而预训练头的输出是与输入相同维数的多元序列( X ^ b × s l × c \hat{X}_{b\times sl\times c} X^b×sl×c)。

3.3.7 Forecast online reconciliation

在这里,我们提出了两种新颖的方法(在预测工作流中,见图1)来调整原始预测,基于时间序列数据的两个重要特征:固有的时间层次结构和跨通道依赖性。它们中的任何一个或两个都可以在我们的TSMixer模型中激活,以获得协调的预测。

Cross-channel forecast reconciliation head:在许多情况下,某一时刻某一信道的预报可能依赖于另一信道在地平线上不同时间点的预报。例如,在零售领域,未来时间点的销售额可能取决于该时间附近的折扣模式。因此,我们引入了一个跨渠道预测和解头,它派生了一个目标,试图在预测范围内的局部周围环境中学习跨渠道的交叉依赖。图3展示了它的体系结构。

首先,通过根据上下文长度(푐푙)附加其前后预测,将每个预测点转换为一个补丁(长度为cl)。然后,通过通道将每个patch平面化,并通过门控关注和线性层,以获得该patch的修正预测点。因此,一个预报点的所有通道根据周围环境中的预测通道值调整其值,从而实现有效的跨通道建模。残留连接确保在信道相关性非常嘈杂的情况下,调和不会导致精度下降。由于修正后的预测与原始预测具有相同的维数,因此不需要改变损失函数。从实验中,我们观察到,与其他信道混合方法相比,具有信道独立主干网和跨信道调和头的“混合”方法提供了稳定的改进。此外,这种架构有助于更好的骨干泛化,因为它可以使用具有不同数量信道的多个数据集进行训练,同时将信道相关建模卸载到预测头(这是任务和数据相关的)。

Online hierarchical patch reconciliation head:
时间序列数据通常具有固有的层次结构,要么是明确已知的(例如,层次预测数据集[13]),要么是隐含的特征(例如,七天天气预报的汇总表示每周预报的估计)。一个州内所有商店的销售预测汇总表示州一级的销售,依此类推)。总的来说,聚合的时间序列具有更好的可预测性,一个好的预测者的目标是在所有层次上实现低的预测误差([13,14,19])。在这里,我们提出了一种新的方法来自动获得分层补丁聚集损失(在训练期间在线),该方法与颗粒级预测误差一起最小化。图4显示了该体系结构。将原预测 Y ^ \hat{\boldsymbol{Y}} Y^的划分为op数个补丁,每个补丁的长度为pl。我们将其记为: Y ^ P {\hat{\mathbf{Y}}}^P Y^P。现在, Y ^ \hat{Y} Y^也通过一个线性层来预测分层聚集的预测: H ^ b × c × o p = A ( Y ^ b × c × f l ) . \hat{H}_{b\times c\times op}=\mathcal{A}\left(\hat{Y}_{b\times c\times fl}\right). H^b×c×op=A(Y^b×c×fl).。然后,我们将贴片级的 Y ^ P \hat{Y}^P Y^P H ^ \hat{H} H^连接起来,并通过另一个线性变换,得到协调的颗粒级预测: Y ^ r e c \hat{Y}_{\mathrm{rec}} Y^rec。因此,基于补丁聚合的预测,在补丁级别对颗粒级预测进行协调,从而改进颗粒级预测。当预测聚合信号变得具有挑战性时,残留连接可确保校准不会导致准确性下降。现在,分层补丁聚集损失计算如下:
在这里插入图片描述

其中, Y {\boldsymbol{Y}} Yground-truth未来时间序列, H {\boldsymbol{H}} H是patch级别的聚合地ground-truth,BU是指自下而上聚合粒度级预测以获得聚合的patch级预测[13],而sf是比例因子。对于 MSE 损失,sf=(pl)^{2}.。更直观地说,这种损失试图以某种方式调整基本预测,使其不仅在粒度级别准确,而且在聚合补丁级别也准确。请注意,可以在此处强制执行预定义的数据集特定的层次结构,但将其留待将来的研究。

在这里插入图片描述

四、实验

4.1 实验设置

4.1.1 数据集。我们评估了所提出的 TSMixer 模型在 7 个流行的多元数据集上的性能,如表 1 所示。这些数据集已在文献 [20][32][28] 中广泛用于基准多元预测模型,并且在 [33] 中公开可用]。我们遵循[20]中相同的数据加载参数(例如训练/验证/测试分割比)。
在这里插入图片描述
• CI-TSMixer:通道独立的 TSMixer,无增强功能
• CI-TSMixer(G,H):具有门控注意和层次结构协调头的通道独立 TSMixer
• CI-TSMixer(G,H,CC):具有门控注意和层次结构协调头的通道独立 TSMixer,层次结构和跨渠道协调负责人
• CI-TSMixer-Best:最佳性能 TSMixer 变体 [即CI-TSMixer(G,H) 和 CI-TSMixer(G,H,CC)]
• V-TSMixer:普通 TSMixer
• IC-TSMixer:通道间 TSMixer
可以使用相同的命名约定来形成其他模型变体。除非明确说明,跨通道协调头使用默认上下文长度 1。

在这里插入图片描述
4.1.4 SOTA 基准。我们将 SOTA 预测基准分为以下几类:(i) 标准 Transformer:FEDformer [36]、Autoformer[28] 和 Informer [35],(ii) Patch Transformer:PatchTST [20] 和 CrossFormer [2],(iii) MLP 和非 Transformers:DLinear [32]、LightTS [34] 和 S4 [10],(iv) 自监督模型:BTSF [29]、TNC [24]、TS-TCC [9]、CPC [26] ,和 TS2Vec [31]。

4.2 监督多元预测

在本节中,我们将 TSmixer 的准确性和计算改进与监督多元预测中的流行基准进行比较。

4.2.1 Accuracy Improvements.在表 2 中,我们将 TSMixer Best 变体(即 CI-TSMixer-Best)的准确性与 SOTA 基准进行了比较。由于我们在 MSE 和 MAE 中观察到类似的相对模式,因此我们使用 MSE 指标解释本文中的所有结果。 TSMixer 的性能显着优于标准 Transformer 和 MLP 基准(DLinear:8%、FEDformer:23%、Autoformer:30% 和 Informer:64%)。 PatchTST(参考[20]中的 PatchTST/64)是最强的基线之一,TSMixer 的性能比它略好 1%。然而,TSMixer 相对于 PatchTST 实现了这一改进,并显着提高了性能。训练时间和记忆(第 4.2.2 节)。此外,附录 A.4.1 强调了 TSMixer 与其他二级基准测试(LightTS、S4 和 CrossFormer)的卓越性能。

在这里插入图片描述
表 2:TSMixer 与监督长期多元预测中流行基准的比较。最好的结果以粗体显示,次好的结果以下划线显示。 PatchTST 结果报告自[20]。所有其他基准均来自[32]

4.2.2 计算改进。 PatchTST 被认为是所有时间序列 Transformer 中计算效率最高的模型,因为修补可将输入大小大幅减少 s(步幅)[20] 倍。相比之下,TSMixer 不仅能够进行修补,而且还完全消除了自注意力块。因此,TSMixer 比 PatchTST 和其他 Transformer 模型显示出显着的计算改进。在表 3 中,我们重点介绍了 TSMixer 相对于 PatchTST 的加速和内存比较。为了进行分析,我们捕获以下指标:(i) 每个 epoch 整个数据的乘加累积运算 (MAC)、(ii) 模型参数数量 (NPARAMS)、(iii) 单 EPOCH 时间和 (iv) 峰值 GPU训练运行期间达到的内存(最大内存)。在本实验中,我们以非分布式方式在具有相同硬件配置的单个 GPU 节点中训练 TSMixer 和 PatchTST 模型以报告结果。为了确保比较的公平性,我们使用 PatchTST 和 TSMixer 的精确模型参数,这些参数用于表 2 中报告的误差指标比较。在表 3 中,我们捕获了 TSMixer 相对于 PatchTST 的三个较大的性能指标的平均改进。 푓푙=96 的数据集(电力、天气、交通)。由于 CI-TSMixer 纯粹基于 MLP,因此它显着减少了平均 MAC(约 4 倍)、NPARAMS 和最大内存(约 3 倍)以及 EPOCH TIME 5(约 2 倍)。即使在启用门控注意力和层次协调之后,CI-TSMixer(G,H) 仍然显示出 MAC 和 NPARAMS(约 3 倍)以及 EPOCH 时间和最大内存(约 2 倍)的良好减少。需要注意的是,当启用跨通道协调时 [即 CI-TSMixer(G,H,CC)],与 PatchTST 相比,TSMixer 中的参数数量变得非常多。原因是跨通道协调头中的参数数量取决于导致这种缩放效果的数据集中的通道数量。例如,由于电力和交通数据集的通道数量非常多(分别为 321 和 862),因此模型的参数数量也会增加,而天气(只有 21 个通道)则不会遇到任何此类缩放效应。如果启用了通道相关性,即使 PatchTST 也应该显示出类似的缩放效果。然而,即使参数增加,CI-TSMixer(G,H,CC) 仍然显示 MAC 显着减少(约 3 倍)以及 EPOCH 时间和最大内存(约 2 倍)。原因是参数缩放仅影响协调头,而不影响主要构成总训练时间和内存的主干。因此,TSMixer 及其变体可以轻松地产生比 PatchTST 更好的结果,并且训练时间和内存利用率显着减少。
在这里插入图片描述
表 3:计算改进。 nX 表示跨数据集的 n 倍平均改进 (Avg. Imp)。在这里插入图片描述
表 4:CI、门控注意力和层次协调对 Vanilla TSMixer (MSE) 的影响。

在这里插入图片描述
表 5:通道混合技术比较 (MSE)。

4.3 元件和设计选择分析

在本节中,我们研究 TSMixer 中各种关键组件和设计选择的影响。

4.3.1 CI、GatedAttention 和层次结构补丁协调的效果。表 4 描述了在三个数据集中 TSMixer 相对于 V-TSMixer 的各种增强组件的改进:ETTH1、ETTM1 和Weather(针对空间约束)。 V-TSMixer 代表了普通模型,其中所有通道都被展平并一起处理(类似于视觉 MLP-Mixer )。 CI-TSMixer 通过在主干中引入通道独立性 (CI) 而不是通道扁平化,比 V-TSMixer 性能高出 9.5%。通过进一步将门控注意力(G)和层次协调(H)结合在一起[即CITSMixer(G,H)],我们观察到额外的 2% 改进,导致总计 11.5% 的改进。 V-TSMixer。一般来说,与仅添加“G”或“H”相比,同时添加“G”和“H”可以使 CI-TSMixer 获得更稳定的改进。

4.3.2 Hybrid Channel Modelling Approach.混合渠道建模方法。
在表 5 中,我们比较了各种通道混合技术,并强调了 TSMixer 中遵循的“混合”通道建模的好处。综上所述,CI-TSMixer 比 V-TSMixer 提高了 11.5%,并且通过添加跨通道协调头(CC),准确率进一步提高了 2%,导致 CI​​TSMixer(G,CC-Best) 整体提高了 13.5% (即带有CC头的通道独立主干)上下文长度(푐푙)是CC头中的一个重要超参数,它决定跨通道的周围上下文空间以实现协调,并且该参数必须根据底层数据特征来决定。对于本实验,我们将 푐푙 从 1 更改为 5,并选择最好的,如表 5 中所示的 CI-TSMixer(G,CC-Best)。此外,我们从表 5 中观察到 CI-TSMixer(G,CC-Best) )与在骨干网内应用跨通道相关性的 IC-TSMixer 相比,性能更好。此外,CrossFormer [2] 提出了另一种补丁跨通道相关方法,TSMixer 的性能明显优于 30%(附录表 9)。因此,使用跨通道协调头增强通道独立主干的“混合”通道建模方法对于跨通道的噪声交互相对稳健。此外,从架构角度来看,这种方法有助于在具有不同数量通道的多个数据集上预训练主干网。这不能通过通道混合骨干网轻松实现。

4.4 通过表征学习进行预测

在本节中,我们将 TSMixer 与通过自监督表示学习进行多元预测的流行基准进行比较。

4.4.1 准确性改进 在表 6 中,我们将 TSMixer 的预测结果与自监督基准进行了比较。对于 BTSF、TNC、TS-TCC 和 CPC,我们报告了 [29] 的结果。对于自我监督的 PatchTST,我们从 [20] 报告 ETTH1,并为天气计算它,因为它不可用。我们使用[29]和[20]中常见的푓푙空间。在自监督工作流程中,首先对 TSMixer 主干进行预训练以学习通用补丁表示,然后针对预测任务对整个网络(主干 + 头部)进行微调。通过使用这种方法训练 TSMixer,我们从表中观察到。如图 6 所示,CI-TSMixer-Best 与通过自我监督学习的现有预测基准(例如 BFSF、TNC、TS-TCC、CPC)相比取得了显着改进(50-70% 的裕度)。 TS2Vec [31] 也观察到类似的趋势(附录表 10)。此外,CI-TSMixer-Best 比自监督 PatchTST 领先 2%。然而,正如章节中所解释的。 4.2.2 中,我们实现了对 PatchTST 的改进,显着减少了时间和内存。
在这里插入图片描述
表 6:通过表征学习 (MSE) 进行预测

4.4.2 自监督中的预训练策略

在表中。如图 7 所示,我们对 3 个大型数据集(电力、交通和天气)上的自监督方法进行了详细分析,其中使用了 3 种不同的预训练数据创建策略,如下所示:(i)相同(预训练和微调的主要数据相同),( ii) ALL(使用所有数据 [ETT、电力、交通和天气] 进行预训练,并使用原始数据进行微调),(iii) TL(迁移学习:使用除原始数据之外的所有数据进行预训练,并使用原始数据进行微调)。由于我们跨多个数据集进行学习,因此我们在本实验中使用更大的模型大小(即 푛푙 = 12,푓푠 = 3)以获得更好的建模能力。从表。如图 7 所示,我们观察到所有三种考虑的数据策略都同样有效,但它们之间存在边际差异。然而,正如我们在其他领域(如视觉和文本)中观察到的那样,跨多个数据集的迁移学习的好处并不是很显着。平均而言,CI-TSMixer-Overall-Best(SS) [表明所考虑的数据策略变体中的最佳结果] 显示了性能的提高。自我监督的 PatchTST(来自[20]的报告)和监督的 TSMixer 提高了 1.5%。因此,在预测任务之前启用自我监督有助于提高预测准确性。此外,它有助于下游任务更快的收敛。

4.4.3 Patch Representations.
为了理解学习到的补丁表示的语义含义,我们从 ETTH1 中随机选择 5 个补丁嵌入(即预训练后 TSMixer 主干的输出),并获取其最近的 50 个嵌入,以在补丁嵌入空间中形成 5 个簇(图 5(b)) )。然后我们获取它们相关的补丁时间序列并绘制在图中。 5(a)。从图中,我们观察到附近的补丁表示与相似形状和图案的补丁时间序列高度相关,从而学习有意义的补丁表示,可以有效地帮助各种下游任务的微调过程。
在这里插入图片描述
表 7:具有不同预训练策略 (MSE) 的自我监督 (SS)。 PatchTST (SS) 结果来自 [20](SS 微调模式)

在这里插入图片描述
图 5:补丁时间序列及其相关嵌入之间的相关性。

五、 结论和未来方向

受 MLP 混合器在视觉领域的成功启发,本文提出了 TSMixer,这是一种纯粹设计的 MLP 架构,具有经过经验验证的时间序列特定增强功能,用于多元预测和表示学习。特别是,我们引入了一种新的混合架构,增强了各种协调头和对通道独立主干的门控注意力,显着增强了简单 MLP 结构的学习能力,使其优于复杂的 Transformer 模型。通过广泛的实验,我们表明 TSMixer 的性能优于所有流行的基准测试,并显着减少了计算资源。在未来的工作中,我们计划将 TSMixer 扩展到其他下游任务(例如分类、异常检测等),并提高跨数据集的迁移学习能力。我们还计划研究 Swin[11]、Shift[30] 和其他较新的 Mixer 变体 [7][22] 在时间序列中的适用性。


附录 A.1 数据集
我们使用[20]中提供的 7 个流行的多元数据集进行预测和表示学习。 Weather6数据集收集了湿度、气温等21个气象指标。 Traffic7 数据集报告旧金山高速公路上不同传感器的道路占用率。 Electricity8 捕获了 321 个客户每小时的用电量。 ETT9(电力变压器温度)数据集以不同分辨率(15 分钟和 1 小时)报告来自两个电力变压器的传感器详细信息。因此,我们总共有 4 个 ETT 数据集:ETTM1、ETTM2、ETTH1 和 ETTH2。
6https://www.bgc-jena.mpg.de/wetter/
7https://pems.dot.ca.gov/
8https://archive.ics.uci.edu/ml/datasets/ElectricityLoadDiagrams20112014
9https://github.com/zhouhaoyi/ETDataset
A.2 补充细节
TSMixer 按照 [21] 确定训练期间的最佳学习率,以实现更好的收敛。训练期间应用耐心 10 提前停止。 TSMixer 库是使用 PyTorch 构建的,并通过 Pytorch DDP10 启用多 GPU 节点训练。 TSMixer 可以轻松扩展并满足大规模预测的需求,并且可以跨 Kubernetes 集群中的多个节点部署。
A.3 补充图
本节介绍了本文中为了更好地理解而引用的补充图。数字。图 6(a) 描绘了混合器层中使用的标准 MLP 块。数字。图 6(b) 解释了混合器层中使用的门控注意力块来降低噪声特征。数字。图 7 突出显示了预测和预训练头中遵循的架构。在自监督预训练工作流程中,预训练头连接到骨干网。在其他工作流程(例如监督或微调)中,会附加预测头。
在这里插入图片描述

在这里插入图片描述
A.4 补充结果
本节解释了由于篇幅限制而未在主论文中报告的补充结果。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
A.4.1 LightTS、S4、CrossFormer 和 TS2Vec 基准测试。
本节将 TSMixer 与 LightTS [34]、S4 [10]、CrossFormer [2] 和 TS2Vec [31] 进行比较和对比。考虑到空间限制以及这些基准测试与我们报告的主要基准测试(如 PatchTST、DLinear)相比较低的性能,我们在附录而不是主要论文中提到了这些。桌子。 8和表。 9 在监督工作流程中对 TSMixer 与 LightTS、S4 和 CrossFormer 进行比较和对比。桌子。图 10 在自监督工作流程中对 TSMixer 与 TS2Vec 进行了比较和对比。由于基线论文报告了不同预测范围 (푓푙) 空间中的结果,因此我们根据常用的预测范围在单独的表中报告它们的比较。

  • 27
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

萧宛亦

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值