MULTI-RESOLUTION DIFFUSION MODELS FOR TIME SERIES FORECASTING

系列文章目录

时间序列预测的多分辨率扩散模型 ICLR2024


提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档


摘要

扩散模型已经成功地应用于许多计算机视觉应用,如文本引导图像生成和图像到图像的翻译。近年来,人们尝试对时间序列数据的扩散模型进行扩展。但是,这些扩展非常简单,没有利用时间序列数据的独特属性。由于不同的模式通常在时间序列的多个尺度上表现出来,本文利用这种多分辨率时间结构,提出了多分辨率扩散模型(mr-Diff)。通过季节趋势分解,从时间序列中依次提取由细到粗的趋势进行正向扩散。然后,去噪过程以易-难非自回归的方式进行。首先生成最粗糙的趋势。使用预测的粗趋势作为条件变量,逐渐添加更精细的细节。在9个真实时间序列数据集上的实验结果表明,mr-Diff优于最先进的时间序列扩散模型。它也优于或可与各种先进的时间序列预测模型相媲美。


提示:以下是本篇文章正文内容

一、引言

时间序列数据在许多实际应用中都很普遍。特别是,时间序列预测有助于用户识别模式并根据历史数据进行预测。例子包括金融领域的股票价格预测、医疗保健领域的病人健康监测、制造业的机器监测以及交通运输领域的交通流量优化。多年来,通过各种深度神经网络的发展,时间序列分析取得了重大进展,包括循环神经网络(Hewamalage等人,2021)、卷积神经网络(Yue等人,2022)和变压器(Vaswani等人,2017)。

除了这些突出的深度神经网络,扩散模型最近成为一种强大的生成建模工具。它在图像合成等领域优于许多其他生成模型(Ho et al., 2020;Dhariwal & Nichol, 2021),视频生成(Harvey et al., 2022;Blattmann et al., 2023)和多模态应用(Rombach et al., 2022;撒哈拉等人,2022年)。最近,研究人员试图利用其在时间序列领域的强大生成能力。已经开发了许多时间序列扩散模型(Rasul et al., 2021;Tashiro等人,2021;Alcaraz & Strodthoff, 2022;Shen & Kwok, 2023)。例如,TimeGrad (Rasul et al., 2021)将标准扩散模型与递归神经网络的隐藏状态集成在一起。CSDI (Tashiro等,2021)使用自监督掩蔽来指导非自回归去噪过程。虽然这些时间序列扩散模型已经证明了它们的有效性,但它们并没有充分利用时间序列数据中独特的结构特性,仍然局限于直接从随机向量生成时间序列(图1(a))。在处理非平稳和有噪声的真实时间序列时,这可能会带来重大挑战。

由于时间序列通常在多个尺度上表现出复杂的模式,因此使用潜在的多分辨率时间结构一直是传统时间序列分析的基石。特别是,季节趋势分解(Robert et al., 1990)可以提取季节和趋势成分,并且可以使用较粗的时间模式来帮助建模较细的模式。最近,一些深度时间序列预测模型(Oreshkin et al., 2019;Wu et al., 2021;Zeng等人,2023)也采用了多分辨率分析技术。例如,NBeats (Oreshkin et al., 2019)分别使用傅里叶和多项式基来近似多层中的季节和趋势分量。Autoformer (Wu et al., 2021)采用平均池化方法提取各变压器层中的季节分量。DLinear (Zeng et al., 2023)引入了一个具有季节性趋势分支的MLP。N-Hits (Challu et al., 2023)使用分层插值来更好地利用多尺度时间模式。Fedformer (Zhou et al., 2022b)通过在频域使用混合专家分解来改进Autoformer。虽然这些最近的变压器和MLP模型证明了多分辨率分析在深度时间序列建模中的有效性,但多分辨率分析在时间序列扩散模型中的应用还有待探索。

在本文中,我们通过提出用于时间序列预测的多分辨率扩散(mr-Diff)模型来弥补这一差距。与直接从随机向量去噪的现有时间序列扩散模型(图1(a))不同,mr-Diff将去噪目标分解为几个子目标(图1(b)),每个子目标对应于从细到粗的季节性趋势分解序列中提取的趋势。这鼓励去噪过程以一种容易而困难的方式进行。首先生成较粗的趋势,然后逐渐添加较细的细节。通过更好地利用季节趋势结构和不同的时间分辨率,可以更准确地生成时间序列。

本文的主要贡献如下:(1)提出了多分辨率扩散(mr-Diff)模型,该模型首次将基于季节趋势分解的多分辨率分析整合到时间序列扩散模型中。(ii)我们以一种易难的方式进行渐进式去噪,先产生较粗的信号,再产生较细的细节。这样可以更准确地预测时间序列。大量实验表明,diff先生优于最先进的时间序列扩散模型。它也优于或可与各种先进的时间序列预测模型相媲美。在这里插入图片描述
图1:直接去噪与建议的多分辨率去噪。

二、相关著作:深度时间序列模型

最近,已经提出了许多使用转换器的深度时间序列模型(Vaswani et al., 2017)来捕获时间依赖性。Informer (Zhou et al., 2021)通过稀疏关注避免了vanilla transformer的二次时间复杂度,并通过非自回归方式解码提高了推理速度。自耦器(Wu et al., 2021)用自相关层取代变压器的自关注块。Fedformer (Zhou et al., 2022b)使用频率增强模块通过频域映射捕获重要的时间结构。Pyraformer (Liu et al., 2021)使用金字塔注意力模块对时间序列进行多分辨率表示。Scaleformer (Shabani et al., 2023)逐步生成预测,从较粗的水平开始,然后向较细的水平发展。PatchTST (Nie et al., 2022)类似于视觉转换器(ViT) (Dosovitskiy et al., 2020),通过对时间序列进行修补和自监督预训练来提取局部语义信息,从而进行时间序列预测。它还用线性映射取代变压器的解码器,并使用信道无关策略来实现多变量时间序列预测的良好性能。

除了基于变压器的模型外,最近的一些模型还利用基展开来分解时间序列。FiLM (Zhou et al., 2022a)使用Legendre多项式投影来近似历史信息,使用傅里叶投影来去除噪声。NBeats (Oreshkin et al., 2019)用多项式系数表示时间序列的趋势,用傅立叶系数表示季节模式。Depts (Fan et al., 2022)通过使用周期性模块对周期时间序列建模来改进NBeats。N-Hits (Challu et al., 2023)使用多尺度分层插值来进一步改进NBeats。一般来说,这些模型比基于变压器的模型更容易训练,尽管它们的性能可能取决于基础的选择。

除了这两种类型的深度学习模型,其他最近的模型也很有竞争力。SCINet (Liu et al., 2022)使用递归下采样-卷积-交互架构从下采样子序列或特征中提取时间特征。NLinear (Zeng et al., 2023)对时间序列进行归一化,并使用线性层进行预测。DLinear (Zeng et al., 2023)遵循Autoformer并使用季节趋势分解。

最近,扩散模型也被用于时间序列数据。TimeGrad (Rasul et al., 2021)是一种条件扩散模型,它以自回归的方式进行预测,去噪过程由递归神经网络的隐藏状态引导。然而,由于使用自回归解码,它在长时间序列上的推断速度很慢。为了缓解这一问题,CSDI (Tashiro et al., 2021)使用非自回归生成,并使用自监督掩蔽来指导去噪过程。然而,它需要两个转换器来捕获通道和时间维度中的依赖关系。而且与其他变压器模型相比,其复杂度在变量数和时间序列长度上都是二次的。此外,基于掩蔽的条件反射类似于图像上漆的任务,并且可能导致掩蔽区域和观察区域之间的边界不协调(Lugmayr et al., 2022;Shen & Kwok, 2023)。SSSD (Alcaraz & Strodthoff, 2022)通过用结构化状态空间模型取代变压器来降低CSDI的计算复杂性。然而,它使用了与CSDI相同的基于屏蔽的条件反射,因此仍然存在边界不协调的问题。为了缓解这个问题,非自回归扩散模型TimeDiff (Shen & Kwok, 2023)使用未来混合和自回归初始化进行条件反射。然而,所有这些时间序列扩散模型都不像标准扩散模型那样利用多分辨率时间结构和直接从随机向量中去噪。

在本文中,我们提出使用季节趋势分解将时间序列分解成多个分辨率,并使用细到粗的趋势作为中间潜变量来指导去噪过程。近年来,除了使用季节趋势分解之外,其他多分辨率分析技术也被用于时间序列建模。例如,Yu等人(2021)为图结构时间序列提出了U-Net (Ronneberger等人,2015),并通过池化和解池化来利用不同分辨率的时间信息。Mu2ReST (Niu et al., 2022)处理时空数据,并递归地输出从粗到细分辨率的预测。Yformer (Madhusudhanan等人,2021)通过将降尺度/上采样与稀疏注意力相结合来捕获时间依赖性。PSA-GAN (Jeha et al., 2022)训练一个不断增长的U-Net,并通过逐步添加不同级别的可训练模块来捕获多分辨率模式。然而,所有这些方法都需要设计非常具体的U-Net结构。

三、背景

3.1去噪扩散概率模型

一个著名的扩散模型是去噪扩散概率模型(DDPM) (Ho et al., 2020)。它是一个具有正向扩散和反向去噪过程的潜变量模型。在正向扩散过程中,输入 x 0 \mathbf{x}^{0} x0逐渐被破坏为高斯噪声向量。具体来说,在第k步, x k \mathbf{x}^{k} xk是通过用零均值高斯噪声(方差 β k β_k βk∈[0,1])破坏之前的迭代 x k − 1 \mathbf{x}^{k-1} xk1(按 1 − β k ) \sqrt{1-\beta_{k}}) 1βk )缩放)来生成的:

在这里插入图片描述
可以证明,这也可以重写为 q ( x k ∣ x 0 ) = N ( x k ; α ˉ k x 0 , ( 1 − α ˉ k ) I ) , q(\mathbf{x}^k|\mathbf{x}^0)=\mathcal{N}(\mathbf{x}^k;\sqrt{\bar{\alpha}_k}\mathbf{x}^0,(1-\bar{\alpha}_k)\mathbf{I}), q(xkx0)=N(xk;αˉk x0,(1αˉk)I),,其中 α ˉ k = Π s = 1 k α s , a n d   α k = 1 − β k . \bar{\alpha}_k=\Pi_{s=1}^k\alpha_s,\mathrm{and~}\alpha_k=1-\beta_k. αˉk=Πs=1kαs,and αk=1βk.。因此, x k x_k xk可以简单地得到为

在这里插入图片描述

其中,λ是来自N(0, I)的噪声。这个方程也可以很容易地从 x k x_k xk中恢复 x 0 x_0 x0

在DDPM中,后向去噪被定义为一个马尔可夫过程。具体来说,在第k步去噪时, x k − 1 x_{k−1} xk1 x k x_k xk从以下正态分布中采样产生:

在这里插入图片描述
这里,方差 Σ θ ( x k , k ) \Sigma_{\theta}(\mathbf{x}^{k},k) Σθ(xk,k)通常固定为 σ k 2 I \sigma_{k}^{2}\mathbf{I} σk2I,而平均值 μ θ ( x k , k ) \mu_\theta(\mathbf{x}^k,k) μθ(xk,k)由神经网络定义(参数化为θ)。这通常被表述为噪声估计或数据预测问题(Benny &Wolf, 2022)。对于噪声估计,网络ϵθ预测了扩散输入 x k \mathbf{x}^{k} xk的噪声,然后得到 μ θ ( x k , k )   a s   1 α k x k − 1 − α k 1 − α ˉ k α k ϵ θ ( x k , k ) \mu_{\theta}(\mathbf{x}^{k},k)\mathrm{~as~}\frac{1}{\sqrt{\alpha_{k}}}\mathbf{x}^{k}-\frac{1-\alpha_{k}}{\sqrt{1-\bar{\alpha}_{k}}\sqrt{\alpha_{k}}}\epsilon_{\theta}(\mathbf{x}^{k},k) μθ(xk,k) as αk 1xk1αˉk αk 1αkϵθ(xk,k)。参数θ是通过最小化损失 L ϵ = E k , x 0 , ϵ [ ∥ ϵ − ϵ θ ( x k , k ) ∥ 2 ] \mathcal{L}_{\epsilon}=\mathbb{E}_{k,\mathbf{x}^{0},\epsilon}\left[\|\epsilon-\epsilon_{\theta}(\mathbf{x}^{k},k)\|^{2}\right] Lϵ=Ek,x0,ϵ[ϵϵθ(xk,k)2]来学习的。或者,数据预测策略使用去噪网络xθ,在给定xk的情况下,得到干净数据x0的估计 x θ ( x k , k ) \mathbf{x}_\theta(\mathbf{x}^k,k) xθ(xk,k),然后设置

在这里插入图片描述

参数θ是通过最小化损失来学习的
在这里插入图片描述

3.2时间序列预测的条件扩散模型

在时间序列预测中,给定时间序列的过去观测值 x − L + 1 : 0 0 ∈ R d × L \mathrm{x}_{-L+1:0}^0\in\mathbb{R}^{d\times L} xL+1:00Rd×L,目的是预测未来的值 x 1 : H 0 ∈ R d × H \mathbf{x}_{1:H}^0\in\mathbb{R}^{d\times H} x1:H0Rd×H。其中,d为变量数,H为预测窗口的长度,L为回顾窗口的长度。当使用条件扩散模型进行时间序列预测时,考虑以下分布(Rasul et al., 2021;Tashiro等人,2021;Shen & Kwok, 2023)

在这里插入图片描述

其中, x 1 : H K ∼ N ( 0 , I ) , c \mathbf{x}_{1:H}^{K}\sim\mathcal{N}(\mathbf{0},\mathbf{I}),\mathbf{c} x1:HKN(0,I),c为条件,F为以过去观测值 x − L + 1 : 0 0 \mathbf{x}_{-L+1:0}^0 xL+1:00为输入的条件网络。相应的,步骤k的去噪过程为
在这里插入图片描述
在推理过程中,我们用 x 1 : H k \mathbf{x}_{1:H}^k x1:Hk表示 x ^ 1 : H k . \hat{\mathrm{x}}_{1:H}^k. x^1:Hk.对应的生成样本。我们首先初始化 x ^ 1 : H k \hat{\mathrm{x}}_{1:H}^k x^1:Hk作为 N ( 0 , I ) \mathcal{N}(\mathbf{0},\mathbf{I}) N(0,I)的噪声向量。通过重复运行(6)中的去噪步骤直到K = 1,最终生成的样本为 x ^ 1 : H 0 \hat{\mathbf{x}}_{1:H}^0 x^1:H0

四、mr-diff:多分辨率扩散模型

如第1节所述,最近的变压器和MLP模型证明了基于季节趋势分解的多分辨率分析在深度时间序列建模中的有效性。然而,在扩散模型中使用多分辨率时间模式还有待探索。在本文中,我们通过提出多分辨率扩散(mr-Diff)模型来解决这一差距。所建议模型的概述如图2所示。

提出的mr-Diff可以看作是一个级联扩散模型(Ho et al., 2022),分S个阶段进行,随着阶段的进行,分辨率越来越粗(第4.1节)。这允许在多个时间分辨率下捕获时间动态。在每个阶段,扩散过程与季节趋势分解相互交织。为了简化标记,我们分别使用 X = x − L + 1 : 0 \mathbf{X}=\mathbf{x}_{-L+1:0} X=xL+1:0 Y = x 1 : H \mathbf{Y}=\mathbf{x}_{1:H} Y=x1:H来表示回顾窗口和预测窗口中的时间序列段。让回顾的趋势部分(resp)。预测)阶段s + 1的部分是Xs(代表。是的)。随着s的增加,趋势变得更粗,当 X 0 = X  and  Y 0 = Y \mathbf{X}_0=\mathbf{X}\text{ and }\mathbf{Y}_0=\mathbf{Y} X0=X and Y0=Y时,在每个阶段s + 1中,学习一个条件扩散模型来重建从预测窗口提取的趋势分量Ys(第4.2节)。然后,阶段1的重建与目标时间序列预测相对应。

虽然该扩散模型中的正向扩散过程与现有扩散模型相似,但去噪过程的设计,特别是去噪条件和去噪网络的设计并不简单。在训练过程中,为了指导Ys的重建,提出的模型以回溯段Xs(与Ys具有相同的分辨率)和较粗的趋势Ys+1(提供较细的Ys的全貌)作为去噪条件。在推理上,基真值 Y s + 1 Y_{s+1} Ys+1不可用,并被在s+1阶段去噪过程产生的估计值 Y ^ s + 1 0 \hat{\mathbf{Y}}_{s+1}^{0} Y^s+10所取代。通过以多分辨率的方式结合扩散模型和季节趋势分解,该模型促进了对真实世界时间序列的更好建模。
在这里插入图片描述
图2:提出的多分辨率扩散模型mr-Diff。为了说明简单,我们使用S = 3个阶段。第s + 1阶段,Ys为预测窗口分段中提取的相应趋势分量, Y s k \mathbf{Y}_s^k Ysk为扩散步长k处的扩散样本, Y ^ s 0 \hat{\mathbf{Y}}_s^0 Y^s0为去噪后的输出。

4.1提取从细到粗的趋势

对于回顾窗口中给定的时间序列段X0, TrendExtraction模块依次提取其趋势分量为:
在这里插入图片描述
其中AvgPool是平均池化操作(Wu et al., 2021), Padding保持 X s − 1 \mathbf{X}_{s-1} Xs1和Xs的长度相同, τ s \tau_{s} τs是平滑核大小,它随着s的增加而增加,从而产生从细到粗的趋势。对预测窗口中分段 Y 0 Y_0 Y0的处理类似,其趋势分量 { Y s } s = 1 , . . . , S − 1 \{\mathbf{Y}_s\}_{s=1,...,S-1} {Ys}s=1,...,S1

请注意,虽然季节性趋势分解同时获得季节性和趋势成分,但这里的重点是趋势。另一方面,Autoformer (Wu et al., 2021)和Fedformer (Zhou et al., 2022b)等模型侧重于逐步分解季节成分。当我们在不同阶段/分辨率下使用扩散模型进行时间序列重建时(第4.2节),直观地,从较粗的趋势中更容易预测较细的趋势。另一方面,从较粗的季节成分重建较细的季节成分可能是困难的,特别是因为季节成分可能没有明确的模式。

4.2时间多分辨率重建

在每个阶段s + 1中,我们使用条件扩散模型来重建4.1节中提取的未来趋势Ys。与标准扩散模型一样,它由前向扩散过程和后向去噪过程组成。前向扩散不涉及可学习参数,后向去噪过程的训练过程需要优化,如算法1所示。

在前向和后向去噪过程中都使用了扩散阶跃k的一维嵌入 p k \mathbf{p}^{k} pk。如(Rasul et al., 2021;Tashiro等人,2021;Kong等人,2020),这是通过首先采用正弦位置嵌入(Vaswani等人,2017)获得的: k embedding  = k_{\text{embedding }}= kembedding = h [ sin ⁡ ( 1 0 0 × 4 w − 1 t ) , … , sin ⁡ ( 1 0 w × 4 w − 1 t ) , cos ⁡ ( 1 0 0 × 4 w − 1 t ) , … , cos ⁡ ( 1 0 w × 4 w − 1 t ) ] \begin{bmatrix}\sin(10^{\frac{0\times4}{w-1}}t),\ldots,\sin(10^{\frac{w\times4}{w-1}}t),\cos(10^{\frac{0\times4}{w-1}}t),\ldots,\cos(10^{\frac{w\times4}{w-1}}t)\end{bmatrix} [sin(10w10×4t),,sin(10w1w×4t),cos(10w10×4t),,cos(10w1w×4t)]其中 w = d ′ 2 , w=\frac{d'}{2}, w=2d,,然后将其通过两个全连接(FC)层得到

在这里插入图片描述
其中SiLU为s型加权线性单位(Elfwing et al., 2017)。默认情况下,d '被设置为128。
在这里插入图片描述
图3:调理网络和去噪网络。

4.2.1正向扩散

正向扩散很简单。与式(1)类似,当 Y s 0 = Y s \mathbf{Y}_s^0=\mathbf{Y}_s Ys0=Ys时,我们在步骤k得到:

在这里插入图片描述

其中噪声矩阵λ从N(0, I)中采样,其大小与Ys相同。

4.2.2反向去噪

标准扩散模型直接从随机向量进行一级去噪。在本节中,我们将mr-Diff的去噪目标分解为S个子目标,每个阶段一个。正如将看到的,这鼓励去噪过程以一种容易而困难的方式进行,这样首先生成较粗的趋势,然后逐渐添加较细的细节。

调节网络。条件网络(图3,顶部)构建了一个条件来引导去噪网络(待讨论)。现有时间序列扩散模型(Rasul et al., 2021;Tashiro et al., 2021)简单地使用原始时间序列的回溯片段 X 0 X_0 X0作为(5)中的条件c。在提出的多分辨率季节趋势分解中,我们使用了相同分解阶段s的回溯片段Xs。这样可以更好更容易地重建,因为Xs与要重建的Ys具有相同的分辨率。另一方面,当像现有时间序列扩散模型一样使用 X 0 X_0 X0时,去噪网络可能会在更细的层面上过拟合时间细节。

对x进行线性映射,得到张量 z h i s t o r y ∈ R d × H \mathbf{z}_{\mathrm{history}}\in\mathbb{R}^{d\times H} zhistoryRd×H。为了获得更好的去噪性能,在训练期间,我们使用future-mixup (Shen & Kwok, 2023)来增强 z h i s t o r y ∈ R d × H \mathbf{z}_{\mathrm{history}}\in\mathbb{R}^{d\times H} zhistoryRd×H。它结合了历史和(真实的)未来观测 Y s 0 \mathbf{Y}_{s}^{0} Ys0与mixup (Zhang et al., 2018):

在这里插入图片描述

其中⊙表示Hadamard积, m ∈ [ 0 , 1 ) d × H \textbf{m}\in[0,1)^{d\times H} m[0,1)d×H是一个混合矩阵,其中每个元素从[0,1)上的均匀分布中随机采样。Future-mixup类似于教师强迫(Williams & Zipser, 1989),它将自回归解码的每个解码步骤的基本事实与先前的预测输出混合在一起。

除了在训练中使用 X s \mathbf{X}_{s} Xs外,粗趋势 Y s + 1 ( = Y s + 1 0 ) \mathbf{Y}_{s+1}(=\mathbf{Y}_{s+1}^0) Ys+1(=Ys+10)可以提供细趋势 Y s \mathbf{Y}_{s} Ys的整体图像,因此对条件反射也很有用。因此,(9)中的 z m i x z_{mix} zmix沿着通道维度与 Y s + 1 0 \mathbf{Y}_{s+1}^{0} Ys+10连接,产生条件 c s c_{s} cs(一个2d ×H张量)。对于s = s(最后阶段),没有更粗的趋势, c s c_{s} cs简单地等于zmix。

根据推断,基本真理 Y s 0 \mathbf{Y}_s^0 Ys0不再可用。因此,不使用(9)中的future-mixup,我们只需设置 z m i x = z h i s t o r y . \mathbf{z_{mix}}=\mathbf{z_{history}}. zmix=zhistory.。此外,更粗略的趋势 Y s + 1 \mathbf{Y}_{s+1} Ys+1也不可用,我们将zmix与从s+ 2阶段产生的估计 Y ^ s + 1 0 \hat{\mathbf{Y}}_{s+1}^{0} Y^s+10串联起来。

去噪网络。与式6类似,第s + 1阶段第k步的去噪过程为

在这里插入图片描述
式中,θs为阶段s+1条件网络和去噪网络中的所有参数,

在这里插入图片描述

与式(3)一样, Y θ s ( Y s k , k ∣ c s ) \mathbf{Y}_{\theta_s}(\mathbf{Y}_s^k,k|\mathbf{c}_s) Yθs(Ysk,kcs) Y s 0 \mathbf{Y}_{s}^{0} Ys0的估计值

去噪网络(如图3所示)在条件cs(调节网络输出)的引导下输出 Y θ s ( Y s k , k ∣ c s ) \mathbf Y_{\theta_{s}}(\mathbf Y_{s}^{k},k|\mathbf c_{s}) Yθs(Ysk,kcs)。具体来说,它首先通过由几个卷积层组成的输入投影块将 Y s k \mathbf{Y}_{s}^{k} Ysk映射到嵌入z z ˉ k ∈ R d ′ × H \bar{\mathbf{z}}^k\in\mathbb{R}^{d^{\prime}\times H} zˉkRd×H。这个 z ˉ k \bar{\mathbf{z}}^{k} zˉk与扩散步骤k的嵌入 p k ∈ R d ′ \mathbf{p}^k\in\mathbb{R}^{d^{\prime}} pkRdin(7)一起,被馈给编码器(这是一个卷积网络),得到表示 z k ∈ R d ′ ′ × H \mathbf{z}^{k}\in\mathbb{R}^{d^{\prime\prime}\times H} zkRd′′×H。接下来,我们沿着可变维度连接 z k   a n d   c s \mathbf{z}^{k}\mathrm{~and~}\mathbf{c}_{s} zk and cs,形成大小为(2d + d”)×H的张量。然后将其馈送到解码器,这也是一个卷积网络,并输出 Y θ s ( Y s k , k ∣ c s ) \mathbf Y_{\theta_{s}}(\mathbf Y_{s}^{k},k|\mathbf c_{s}) Yθs(Ysk,kcs)。最后,与(4)类似,通过最小化以下去噪目标得到θs

在这里插入图片描述在推论上,对于每一个s = S,…, 1,我们从 Y ^ s K ∼ N ( 0 , I ) \hat{\mathbf{Y}}_{s}^{K}\sim\mathcal{N}(\mathbf{0},\mathbf{I}) Y^sKN(0,I)开始(算法2中的步骤9)。基于(11)中的数据预测策略,从 Y ^ s k \hat{\mathbf{Y}}_{s}^{k} Y^sk(对 Y s k {\mathbf{Y}}_{s}^{k} Ysk的估计)到 Y ^ s k − 1 \hat{\mathbf{Y}}_{s}^{k-1} Y^sk1的每个去噪步骤为:
在这里插入图片描述

其中,当k > 1时,~ N(0, I),否则, = 0。
后向去噪过程的训练和推理过程的伪代码可以在附录A中找到。

讨论。提出的mr-Diff与Scaleformer (Shabani et al., 2023)有关,Scaleformer也从较粗的水平逐步生成较细的预测。然而,除了Scaleformer基于变压器而mr-Diff基于扩散模型的明显区别之外,Scaleformer在所有分辨率下都使用单个预测模块(变压器)。然而,由于不同分辨率下的时间序列模式可能不同,在mr-Diff中,每个分辨率都有自己的去噪网络,因此更加灵活。此外,在训练和推理过程中,从低分辨率到高分辨率的移动,Scaleformer需要线性插值和额外的跨尺度归一化机制。另一方面,在mr-Diff中,较低分辨率的预测被作为条件输入到条件网络中。调节网络可以学习更灵活的非线性映射来融合跨尺度的趋势。连贯概率预测(Rangapuram等人,2023)也使用时间层次来产生多个分辨率的预测。然而,它比diff先生更严格,并要求模型在所有分辨率下都能产生一致的预测。如第5节所示,这使mr-Diff具有更好的经验性能。

五、实验

在本节中,我们通过比较22个最近的强预测模型在9个流行的现实世界时间序列数据集上进行时间序列预测实验。由于篇幅限制,关于数据集和所选基线的详细介绍分别见附录B和附录C。为了进行性能评估,我们使用了平均绝对误差(MAE)和均方误差(MSE)在十个随机采样轨迹上的平均值。由于篇幅有限,MSE的结果在附录d中。此外,消融研究在附录E中提供。

实现细节。我们使用Adam对所提出的模型进行训练,学习率为10−3。批大小为64,提前停止训练最多100次。使用K = 100个扩散步骤,线性方差时间表(Rasul et al., 2021)从β1 = 10−4开始到βK = 10−1。采用S = 5个阶段。使用验证集选择历史长度({96,192,336,720,1440})。所有实验都在Nvidia RTX A6000 GPU上运行,内存为48GB。详情见附录F。

表1:真实时间序列数据集上的单变量预测MAEs(下标为秩)。所有基线(除了NLinear, SCINet和N-Hits)的结果来自(Shen & Kwok, 2023)。在这里插入图片描述

5.1主要结果

表1显示了单变量时间序列的mae。可以看出,所提出的mr-Diff在9个数据集中有5个是最好的。这种改进在更复杂的数据集(如Exchange和ETTh1)上尤为显著。在剩下的4个数据集中,diff先生在其中3个数据集中排名第二。总的来说,它的平均排名比所有其他基线(包括最新的扩散模型)都要好。请注意,在Caiso等数据集上没有改进。这是因为该数据集中没有可以利用的复杂趋势信息(如图5(b)附录b所示)。

图4显示了mr-Diff和三个竞争模型(SCINet, NLinear和最近的扩散模型TimeDiff)对ETTh1的预测结果。可以看出,diff先生的预测质量比其他人高。在这里插入图片描述

图4:ETTh1的可视化(a) SCINet (Liu et al., 2022), (b) NLinear (Zeng et al., 2023), © TimeDiff (Shen & Kwok, 2023)和(d)提议的mr-Diff。

表2显示了多变量时间序列上的MAEs。基线N-Hits、FiLM和SCINet表现优异,因为它们在预测中也利用了多分辨率信息。然而,与这些强劲的基线相比,拟议中的mr-Diff仍然非常具有竞争力。它在9个数据集中有5个排在前2名,总体上是最好的。接下来是最近的基于扩散的模型TimeDiff。

5.2推理效率

在本实验中,我们比较了mr-Diff(1-4阶段)与其他时间序列扩散模型基线(TimeDiff、TimeGrad、CSDI、SSSD)在单变量ETTh1数据集上的推理效率。由于篇幅限制,我们在附录g中比较了训练效率。除了像之前的实验一样使用H = 168的预测视界外,我们还使用了(Wu et al., 2021;Zhou et al., 2022b)。

表2:真实时间序列数据集上的多变量预测MAEs(下标为秩)。CSDI在交通和电力上的内存不足。所有基线(除了NLinear、SCINet和N-Hits)的结果来自(Shen & Kwok, 2023)。
在这里插入图片描述

表3显示了可训练参数的数量和推理时间。可以看出,mr-Diff的可训练参数数量较少。此外,即使S = 4或5个阶段,它的推理也比SSSD、CSDI和TimeGrad更有效。当S = 3(之前实验中使用的设置)时,mr-Diff甚至比TimeDiff更快。mr-Diff相对于现有扩散模型的推理效率在于:(1)它是非自回归的,避免了像TimeGrad那样在每个时间步进行自回归解码。(ii)使用卷积层。这避免了CSDI中的缩放问题,CSDI的复杂度是变量数和时间序列长度的二次函数。(iii)使用加速技术DPM-Solver (Lu et al., 2022),进一步减少每个阶段的去噪步骤数。此外,当S = 2或3时,它也比TimeDiff快,这要归功于它使用了线性映射来应对未来的混淆,而不是为此目的使用额外的深层。

表3:在单变量ETTh1上,不同预测层数(H)的各种时间序列扩散模型的可训练参数个数和推断时间(ms)。

在这里插入图片描述

六、结论

本文提出了多分辨率扩散模型mr-Diff。与现有的时间序列扩散模型不同,mr-Diff融合了季节趋势分解,并在扩散和去噪过程中使用多时间分辨率。通过以一种从粗到精的方式逐步去噪时间序列,mr-Diff能够产生更可靠的预测。在许多真实世界的单变量和多变量时间序列数据集上的实验表明,mr-Diff优于最先进的时间序列扩散模型。即使与各种非基于扩散的时间序列预测模型相比,它也取得了非常有竞争力的性能。

A PSEUDOCODE伪代码

训练和推理过程分别在算法1和算法2中显示。

在这里插入图片描述

在这里插入图片描述

B数据集

实验在九个常用的真实世界时间序列数据集上进行(Zhou et al., 2021;Wu et al., 2021;Fan et al., 2022):(i) NorPool 1,其中包括多个欧洲国家8年的每小时能源产量系列;(ii) Caiso 2,其中包含加州不同地区8年每小时实际电力负荷序列;交通3,记录由旧金山湾地区高速公路传感器产生的每小时道路占用率;(iv)电费4,包括321名客户两年来每小时的用电量;(v) Weather 5,从2020年至2021年每隔10分钟记录21项气象指标;(vi) Exchange 6 (Lai et al., 2018),描述了八个国家(澳大利亚、英国、加拿大、瑞士、中国、日本、新西兰和新加坡)的每日汇率;(vii)-(viii) ETTh1和ETTm1,7,包含在中国收集的两年电力变压器温度数据(Zhou et al., 2021),分别间隔1小时和15分钟;(ix) Wind 8,每隔15分钟包含2020-2021年的风电记录(Li et al., 2022)。表4显示了数据集信息。由于不同的数据集有不同的采样间隔长度,我们遵循(Shen & Kwok, 2023),考虑更合理的预测长度的预测任务。
在这里插入图片描述
除了直接在这些多变量数据集上运行外,我们还将它们转换为单变量时间序列以进行性能比较。对于NorPool和Caiso,从所有变量中提取单变量时间序列,如(Fan et al., 2022)所示。对于其他数据集,我们遵循(Wu et al., 2021;Zhou et al., 2021),只使用最后一个变量提取单变量时间序列。图5显示了实验中使用的时间序列数据示例。因为它们都是多元的,我们只显示最后一个变量。可以看出,这些数据集在展示各种时间特征(不同的平稳状态、周期性和采样率)方面具有代表性。例如,Electricity包含明显的周期性模式,而ETTh1和ETTm1则呈现非平稳趋势。现实世界的时间序列通常具有随时间或跨变量的不规则动态。与许多深度时间序列模型一样(Kim et al., 2021;周等,2022a;Liu et al., 2022;Zeng et al., 2023),通常对每个窗口的时间序列尺度进行归一化是有用的。在提出的方法中,我们使用了实例规范化,该方法也被用于RevIN (Kim等人,2021)(称为可逆实例规范化)和FiLM (Zhou等人,2022a)。具体来说,我们用每个窗口的时间序列值减去它的回看窗口均值,然后除以回看窗口的标准差。在推理过程中,均值和标准差被加回到预测中。

C在主要实验中的基线

我们比较了几种类型的基线,包括:(i)最近的时间序列扩散模型;非自回归扩散模型TimeDiff (Shen & Kwok, 2023)、TimeGrad (Rasul等,2021)、基于条件分数的扩散模型用于imputation (CSDI) (Tashiro等,2021)、基于结构化状态空间模型的扩散(SSSD) (Alcaraz & Strodthoff, 2022);(ii)用于时间序列预测的最新生成模型:带有扩散、去噪和解纠缠的变分自编码器(D3VAE) (Li等人,2022)、相干概率预测(CPF) (Rangapuram等人,2023)和PSA-GAN (Jeha等人,2022);(iii)基于基扩展的最新预测模型:NHits (Challu等人,2023)、频率改进的Legendre记忆模型(FiLM) (Zhou等人,2022a)、Depts (Fan等人,2022)和NBeats (Oreshkin等人,2019);(iv)时序变压器:缩放变压器(Shabani等人,2023)、PatchTST (Nie等人,2022)、Fedformer (Zhou等人,2022b)、自变换器(Wu等人,2021)、Pyraformer (Liu等人,2021)、Informer (Zhou等人,2021)和标准变压器(Vaswani等人,2017);(v)其他竞争性基线:SCINet (Liu et al., 2022),它引入了用于时间序列预测的样本卷积和相互作用,NLinear (Zeng et al., 2023), DLinear (Zeng et al., 2023) LSTMa (Bahdanau et al., 2015)和基于注意力的LSTM (Hochreiter & Schmidhuber, 1997)。我们没有与(Yu et al., 2021;Niu et al., 2022;Madhusudhanan等人,2021),因为他们的代码不是公开的。
在这里插入图片描述


  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值