DIFFUSION-TS: INTERPRETABLE DIFFUSION FOR GENERAL TIME SERIES GENERATION-CSDN博客

系列文章目录

扩散- ts:一般时间序列生成的可解释扩散 ICLR2024

文章目录

系列文章目录
摘要
一、引言
二、问题陈述
三、 diffusion - ts:时间序列的可解释扩散
四、实证评价
五、结论

摘要

消噪扩散概率模型(ddpm)正在成为生成模型的主要范式。它最近在音频合成、时间序列输入和预测方面取得了突破。在本文中，我们提出了Diffusion-TS，这是一种新的基于扩散的框架，通过使用具有解纠缠时间表示的编码器-解码器转换器来生成高质量的多变量时间序列样本。其中，分解技术引导扩散- ts捕获时间序列的语义，而变压器从噪声模型输入中挖掘详细的序列信息。与现有的基于扩散的方法不同，我们结合基于傅立叶的损失项，训练模型在每个扩散步骤中直接重构样本而不是重构噪声。扩散- ts被期望生成既满足可解释性又满足真实性的时间序列。此外，研究表明，该方法可以很容易地扩展到条件生成任务，如预测和imputation，而不需要改变模型。这也促使我们进一步探索扩散- ts在不规则设置下的性能。最后，通过定性和定量实验，结果表明扩散- ts在各种现实时间序列分析上取得了最先进的结果。https://github.com/Y-debug-sys/Diffusion-TS.

提示：以下是本篇文章正文内容

一、引言

时间序列在现实世界的问题中无处不在，在金融、医学、生物、零售和气候建模等广泛领域发挥着至关重要的作用(Lim & Zohren, 2021)。然而，在数据共享可能导致隐私泄露的某些情况下，缺乏对这些动态数据的访问是机器学习解决方案开发的关键障碍(Alaa等人，2021)。合成真实的时间序列数据被视为一种很有前途的解决方案，并且在深度学习的推动下受到越来越多的关注。具有优于gan的感知质量，同时避免了对抗性训练的优化挑战，基于分数的扩散模型(Song et al.， 2021;2020)，特别是去噪扩散概率模型(ddpm) (Ho et al.， 2020)，已经占据了图像、视频和文本生成的世界(Ho et al.， 2022;Li et al.， 2022a;Dhariwal & Nichol, 2021;Harvey et al.， 2022)比以往任何时候都受到风暴的影响。

扩散模型有希望推广到时间序列领域，以解决高质量时间序列生成的难题。尽管最近的一些研究率先将扩散模型扩展到时间序列相关的应用中，但几乎所有的扩散模型都是为任务不可知的生成(例如，imputation)而设计的(Tashiro等人，2021;Alcaraz & Strodthoff, 2022)和预测(Li et .， 2022b;Shen & Kwok, 2023))使用附加信息进行训练和采样。与此同时，利用扩散模型进行无条件时间相关综合的罕见工作主要集中在单变量综合(Kong et al.， 2021;Kollovieh et al.， 2023)或短时间序列Lim et al.(2023)。但首先，这些基于扩散的方法(Lim et al.， 2023;Das等人，2023)通常使用递归神经网络(rnn)作为主干来联合建模时间动态和复杂相关性。由于误差累积和推理速度慢，这些自回归方法的长期性能受到限制。第二个挑战在于，现实世界时间序列的趋势、季节性和局部特性等独立成分的大量组合通常会在扩散过程中逐渐向数据中添加噪声而被破坏。结果，由于时间属性没有被有意地保留，它们很难恢复失去的时间动态。当时间序列具有明显的季节性振荡时，由于现有的解决方案缺乏主动捕捉周期性的归纳偏差，这种情况会加剧(LIU et al.， 2022)。此外，它们也很难提供专业知识来解释条件生成和无条件生成，因此它们往往缺乏可解释性。

为了更好地应对上述挑战，在本文中，我们旨在开发diffusion - ts，这是一种用于在各种场景下合成高质量时间序列的非自回归扩散模型，在这种模型中，我们明确地模拟了高度复杂(例如，通过为底层模型引入基于变压器的体系结构来学习时间序列的分离的季节趋势构成，从而实现多变量和长期)时间序列。这是通过对不同的表示施加不同形式的约束来实现的。这些解纠缠的表示不仅为扩散- ts提供了一般合成任务的可解释视角，它们还在指导超越简化假设的复杂周期依赖关系的捕获方面发挥作用。此外，我们设计了一个基于傅立叶的损失来重建样本，而不是每个扩散步骤中的噪声，这导致更准确地生成时间序列。扩散- ts中另一个值得注意的设计是一种称为基于重构采样的条件生成方法，这使得扩散- ts适用于各种条件应用，例如时间序列输入和预测，从而在不需要任何参数更新的情况下具有更大的灵活性。

综上所述，我们的主要贡献如下:

•我们提出了一个名为diffusion - ts的时间序列生成框架，它结合了季节趋势分解技术和去噪扩散模型。这是通过基于傅里叶的训练目标和深度分解体系结构的嵌入来实现的。该框架允许模型从数据中学习有意义的时间属性，使其成为通用时间序列生成的高效且可解释的解决方案。
•对于条件生成，我们采用基于目标度量(例如重建)的实例感知引导策略，这使得Diffusion-TS能够以即插即用的方式适应不同的可控生成任务。
•我们的实验表明，Diffusion-TS可以生成真实的时间序列，同时在具有挑战性的环境下保持高度的多样性和新颖性，并且与现有的下游应用的基于扩散的方法相竞争。我们还通过几个案例研究来说明该模型的可解释性。

二、问题陈述

我们表示 $X_{1:\tau}=(x_1,\ldots,x_\tau)\in\mathbb{R}^{\tau\times d}$ 为覆盖τ个时间步长的时间序列，其中d为观测信号的维数。给定数据集 $DA=\left\{X_{1:\tau}^i\right\}_{i=1}^N$ 的N个时间序列信号样本，我们的无条件目标是使用一个基于扩散的生成器来接近 $\hat{X}_{1:\tau}^{i}=G(Z_{i})$ 的函数，该函数映射高斯向量 $Z_i=(z_1^i,\ldots,z_t^i)\in\mathbb{R}^{\tau\times d\times T}$ 表示与DA中信号最相似的信号，其中t为总扩散步长。在我们的方法中，我们考虑以下具有趋势和多重季节性的时间序列模型

在这里插入图片描述

其中 $x_{j}$ 表示观测时间序列， $ζ_j$ 表示趋势分量， $s_{i,j}$ 表示第i个季节分量， $e_j$ 表示剩余部分，其中包含时间j的噪声和一些异常值。可控生成的目标是从条件分布 $p(.|{y)}$ 中生成样本，其中y是控制变量，可以是任何指示合成的实际信号。

三、 diffusion - ts:时间序列的可解释扩散

如前所述，时间序列在许多现实场景中通常表现出复杂的模式。受季节趋势分解分析在时间序列建模中的有效性的启发，Diffusion-TS的核心思想是在基于变压器的底层网络中引入可解释的分解体系结构。我们采用这样的公式有三个主要原因:(i)在扩散模型中使用解纠缠模式尚未探索;(ii)由于建筑和目标的具体设计，我们的方法具有高度的可解释性;(iii)时间信息被分离成几个部分，它使我们能够从具有可解释的解纠缠表示的分散数据中捕获潜在的复杂动态。学习到的解纠缠也倾向于使imputation或预测过程更可靠(LIU et al.， 2022)。因此，最后，我们将展示如何在采样过程中通过训练好的现成扩散模型进行时间序列imputation和预测。
在这里插入图片描述
图1:diffusion - ts中时间序列数据的正向扩散和反向扩散。去噪网络学习基于可解释分解从 $x_t$ 预测干净时间序列 $x_0$ 。在反向传递过程中，生成器网络逐渐注入专家知识，使合成序列目标向真实序列目标靠拢。

3.1扩散框架

如图1所示，我们首先介绍扩散模型，该模型通常包含两个过程:正向过程和反向过程。在这种情况下，来自数据分布 $x_{0}\sim q(x)$ 的样本通过前向过程逐渐噪声化为标准高斯噪声 $x_{T}\sim\mathcal{N}(0,\mathbf{I})$ ，其中转换参数为 $q(x_{t}|x_{t-1})=\mathcal{N}(x_{t};\sqrt{1-\beta_{t}}x_{t-1},\beta_{t}\mathbf{I})$ ， $\beta_{t}\in(0,1)$ 作为扩散步骤t的噪声添加量。然后神经网络学习通过反向跃迁 $p_{\theta}(x_{t-1}|x_{t})=\mathcal{N}(x_{t-1};\mu_{\theta}(x_{t},t),\Sigma_{\theta}(x_{t},t))$ 。通过反向扩散过程学习清除 $x_T$ 可以简化为学习建立一个代理逼近器来参数化所有t的 $\mu_\theta(x_t,t)$ 。Ho等人(2020)使用加权均方误差损失(我们将其称为)训练该去噪模型 $\mu_\theta(x_t,t)$
在这里插入图片描述
其中 $\mu(x_t,x_0)$ 为后验 $q(x_{t-1}|x_0,x_t)$ 的均值。这个目标可以通过优化数据日志似然的加权变分下界来证明。还需要注意的是， $\mu_{\theta}(x_{t},t)$ 的原始参数化可以修改为 $\hat{x}_0(x_t,t,\theta)\mathrm{~or~}\epsilon_\theta(x_t,t)$ 。详细信息请参见附录B。

3.2分解模型体系结构

在高水平上，我们选择了一个编码器-解码器转换器，它增强了模型捕获全局相关性和时间序列模式的能力。这样，整个噪声序列的信息在解码之前就被编码了。我们将解码器更新为一个深度分解架构，如图2所示。解码器采用多层结构，每个解码器块包含一个变压器块、一个前馈网络块和可解释层(趋势层和傅立叶合成层)。整个模型的详细描述可以在附录E中找到，我们现在准备详细说明解纠缠表示的细节。

我们通过对不同的组件施加不同形式的约束来实现解纠缠，这将不同的归纳偏差引入到这些组件中，并使它们更容易学习特定的语义知识。趋势表示法捕获了逐渐平稳变化的内在趋势，季节性表示法说明了信号的周期性模式。误差表示是去除趋势和周期性后剩余部分的特征。在开始之前，我们将可解释层的输入定义为 $w_{(\cdot)}^{i,t},$ 其中 $i\in1,\ldots,D$ ，式中为扩散步长t对应的译码块索引。

趋势综合。趋势分量描述了数据的平滑底层平均值，其目的是模拟缓慢变化的行为。为了产生合理的趋势分量，我们使用多项式回归量(Oreshkin et al.， 2020;Desai et al.， 2021)对趋势 $V_{tr}^{t}$ 建模如下:

在这里插入图片描述
式中 $\chi_{tr}^{i,t}$ 为第i个解码器块输出的平均值，“·”为张量乘法。这里，slow-varying poly space C是向量C =[0,1,2， ${2},\tau-1]^{T}/\tau$ 的幂矩阵。p是一个小的程度(例如p = 3)来模拟低频行为。

季节性和误差综合。在这一部分中，我们将尝试恢复模型输入中趋势以外的组件。这包括周期性成分(季节性)和非周期性成分(误差)。主要的挑战是从有噪声的输入 $x_{t}$ 中自动识别季节模式。受到基于傅里叶级数的季节分量的三角表示的启发(De Livera et al.， 2011;Woo等人，2022)，我们使用傅立叶基捕获傅立叶合成层中时间序列的季节成分:
在这里插入图片描述

其中arg TopK是得到前K个振幅K是一个超参数。 $A_{i,t}^{(k)},\Phi_{i,t}^{(k)}$ 分别是离散傅里叶变换 $\mathcal{F}$ 后第k次频率的相位，振幅。 $f_k$ 表示对应指标k的傅里叶频率， $\bar{(\cdot)}$ 表示对应共轭的(·)。实际上，傅里叶合成层在频域中选择振幅最显著的基，然后通过反变换返回到时域来模拟季节性。最后，我们可以通过以下公式得到原始信号:

在这里插入图片描述
其中R为最后一个解码器块的输出，可以看作是残差周期性和其他噪声的和。

3.3基于傅立叶的训练目标

为了使模型无监督地揭示这些时间序列成分，我们训练神经网络直接预测一个估计 $\hat{x}_0(x_t,t,\theta)$ 。然后，如图1所示的反向过程可以通过

在这里插入图片描述
其中 $z_{t}\sim\mathcal{N}(0,\mathbf{I}),\alpha_{t}=1-\beta_{t}\mathrm{~and~}\bar{\alpha}_{t}=\prod_{s=1}^{t}\alpha_{s}$ 。我们采取以下重加权策略:

其中λ为常数，即0.01。与Ho等人(2020)类似，这些损失项在小t处降权，以迫使网络专注于更大的扩散步长。

此外，我们建议通过傅里叶变换将可解释的扩散训练应用到频域，傅里叶变换是一种将有限长度的时域信号转换为频域表示的数学运算(Bracewell & Bracewell, 1986)。Fons et al.(2022)研究表明，基于傅里叶的损失项有利于时间序列信号的精确重构。形式上，我们有

在这里插入图片描述

图2:在拟议的 $\hat{x}_{0}$ 近似器中解码器的网络架构。

其中FFT表示快速傅里叶变换Elliott & Rao (1982)， λ1， λ2是平衡两个损失的权重。

3.4时间序列应用的条件生成

以上描述了无条件时间序列生成的细节。在本节中，我们将描述扩散- ts的条件扩展，其中建模的 $x_0$ 以目标y为条件。目标是利用预训练的扩散模型和分类器的梯度来从后向近似采样 $p(x_{0:T}|y)=\prod_{t=1}^{T}p(x_{t-1}|x_{t},y),\mathrm{~where~}p(x_{t-1}|x_{t},y)\propto$ $p(x_{t-1}|x_{t})p(y|x_{t-1},x_{t})$ 。这里使用贝叶斯定理，我们对 $x_{t-1}$ 运行梯度更新，通过以下分数函数控制生成:
在这里插入图片描述
其中 $\operatorname{log}p(x_{t-1}|x_{t})$ 由扩散模型定义，而 $\operatorname{log}p(y|x_{t-1})$ 由分类器参数化，该分类器可以由 $\nabla_{x_{t-1}}\log p(y|x_{0|t-1}),$ 近似，Chung et al.(2022)证明了这一点。

该方法可以解释为一种将样本引导到分类器具有高可能性的区域的方法。那么，给定条件部分 $x_a$ 和生成部分 $x_b$ ，我们提出的近似条件采样用于imputation和预测的方法定义如下:
在这里插入图片描述
其中γ是一个超参数，它权衡了两个函数(第一个用于条件一致性，第二个用于更好的流畅性)。梯度项可以解释为基于重构的导向，η控制强度。根据Li et al. (2022a)，我们对每个扩散步骤重复多个梯度更新步骤，以提高控制质量。然后通过替换 $\tilde{x}_{a}(x_{t},t,\theta):=\sqrt{\bar{\alpha}_{t}}x_{a}+\sqrt{1-\bar{\alpha}_{t}}\epsilon$ ，将使用新的 $\tilde{x}_{0}$ 生成样本 $x_{t-1}$ 。附录F中的算法列出了如何将这种抽样方案用于条件生成。

四、实证评价

在本节中，我们首先研究提出的模型的可解释输出。然后我们在无条件生成和条件生成两种模式下评估我们的方法，以验证生成的信号的质量。对于时间序列生成，我们选择了四个先前的模型进行比较:TimeVAE (Desai等人，2021)、Diffwave (Kong等人，2021)、TimeGAN (Yoon等人，2019)、CotGAN (Xu等人，2020)和DiffTime (Coletta等人，2023)，后者可以被视为无条件的CSDI (Tashiro等人，2021)。我们还比较了CSDI和SSSD (Alcaraz & Strodthoff, 2022)在条件任务上的表现。最后，我们通过实验验证了在干净数据不足的情况下DiffusionTS的性能。实施细节和消融研究分别见附录G和C.7。

4.1数据集

我们使用表11中的4个真实数据集和2个模拟数据集来评估我们的方法。股票为2004年至2019年b谷歌股价数据。每个观测值代表一天，有6个特征。ETTh数据集包含从电力变压器收集的数据，包括2016年7月至2018年7月每15分钟记录一次的负载和油温。Energy是一个包含28个值的UCI家电能源预测数据集。功能磁共振成像是因果发现的基准，它包括对血氧水平依赖(BOLD)时间序列的现实模拟。在这里，我们从原始数据集中选择一个具有50个特征的模拟。正弦函数有5个特征，其中每个特征都是用不同的频率和相位独立创建的。MuJoCo是具有14个特征的多变量物理模拟时间序列数据。

4.2指标

对于综合数据的定量评价，我们主要考虑三个标准:(1)时间序列的分布相似度;(2)时间依赖性和特征依赖性;(3)预测目的的有用性。我们采用以下评估指标(详细描述见附录G.3): 1)判别分数(Yoon等人，2019)作为监督任务，使用分类模型来区分原始数据和合成数据，测量相似性;2)预测分数(Yoon et al.， 2019)通过训练一个事后序列模型来衡量合成数据的有用性，该模型使用训练-合成-测试-真实(TSTR)方法预测下一步的时间向量;3)上下文-初始距离(上下文- fid)分数(Paul等人，2022)通过计算适合局部上下文的时间序列表示之间的差异来量化合成时间序列样本的质量;4)相关性评分(Correlational score, Ni et al.， 2020)使用真实数据与合成数据相互关联矩阵之间的绝对误差来评估时间依赖性。

4.3可解释性结果

在这里插入图片描述

图3:可解释配置下的Diffusion-TS重构性能。每行是每个数据集的时间序列示例，从上到下(sin, Stocks和ETTh)。

我们首先分析我们的模型对多变量时间序列的重建性能。图3演示了扩散- ts在三个数据集中对原始样本和重建样本的演示。该模型将损坏的样本(如(a)所示)加上50步噪声作为输入，并通过分解时间趋势(如(d))和季节误差(如(e))，输出试图恢复地面真相(如(b))的信号(如©所示。正如预期的那样，趋势曲线遵循信号的整体形状，而季节和误差在零附近振荡。融合这两种时间特性后，重建的样本与地面真实情况非常吻合。我们的结论是，通过引入可解释架构，扩散- ts生成的时间序列可以在几乎没有精度损失的情况下表现出解纠缠的可解释性。此外，我们还进行了案例研究，以进一步验证附录C.5中合成数据的可解释性。

4.4无条件时间序列生成

在这一部分中，我们首先复制Yoon等人(2019)的实验设置，以报告模型相对于上述基准的性能。然后，我们研究了模型综合较长时间序列数据的能力。

在这里插入图片描述
在表1中，我们列出了大多数现有相关工作中使用的24长度时间序列生成结果。它表明扩散- ts在几乎所有指标方面始终比其他基线生产更高质量的合成样品。例如，diffusion - ts可以在所有六个数据集中显著提高50%的判别分数。同样值得注意的是，对于高维数据集(即MuJoCo, Energy和fMRI)， DiffusionTS的领先性能更为显著。这表明扩散- ts可以很好地解决复杂时间序列合成的挑战。表3显示了ETTh和Energy数据集上的长期时间序列生成结果。我们随机生成3000个不同长度的序列(64、128、256)，然后使用上述指标来评估不同方法的生成质量。从结果来看，Diffusion-TS达到了最佳的综合性能，这意味着可解释分解对长期时间序列建模的有效性。值得注意的是，与其他基线不同的是，随着序列长度的增加，Diffusion-TS的性能变化相当稳定。这意味着Diffusion-TS保持了更好的长期稳健性，这对现实世界的应用是有意义的。

在这里插入图片描述

为了可视化时间序列合成的性能，我们采用了两种可视化方法。一种是使用t-SNE在二维空间中投影原始和合成数据(Van der Maaten & Hinton, 2008)。另一种是利用核密度估计绘制数据分布。如图4第一行和附录C.2图片所示，Diffusion-TS对原始数据区域的重叠效果明显优于TimeGAN。图4中的第二行显示，与TimeGAN相比，Diffusion-TS合成数据的分布更接近原始数据的分布。有关更多可视化和分布，请参阅附录H。
在这里插入图片描述

4.5条件时间序列生成

在这里，我们提出了时间序列估算和预测的条件生成。对于输入任务，我们采用了Zerveas等人(2021)中使用的几何分布的掩蔽策略，该策略控制缺失序列的长度和缺失比率r，而不是随机选择缺失点。因为一个缺失的时间点通常可以很容易地从之前和之后的点中预测出来。对于这两个任务，时间序列的长度被设置为48个时间步长，对于给定前w个连续时间点的时间序列，我们预测剩下的48 - w个时间点。我们在图5中提供了ETTh和Energy数据集的估算和预测示例(更多示例见附录1)。红十字表示观测值，蓝圈表示地面真实值估算目标。估算值的中位数表示为线，5%和95%的分位数表示为阴影。这表明Diffusion-TS对CSDI的估算和预测更为合理，置信度较高。在这里插入图片描述
我们还运行详细的实验来评估我们的条件扩展。将基于上述Langevin采样器的Diffusion-TS (DiffusionTS-G)与使用基于替换的条件采样的CSDI、原始Diffwave和Diffusion-TS- r进行比较(条件自适应的详细描述见附录D)。在图6中，我们展示了实证结果，其中扩散- tsg即使在高缺失率水平下也优于所有基线。我们可以看到，DiffusionTS-R在低缺失率下达到了接近的精度，但对于高缺失率75%和90%，重构引导采样策略有明显的提高。这意味着随着约束条件的增加，季节趋势分解自然有利于填充，但当缺失率较高且没有附加约束条件时，也可能使整个序列偏离地面真实值。为了完整性，我们进行了额外的实验，并在附录C.3中包括其他时间序列基线，如TLAE (Nguyen & Quanz, 2021)。我们可以看到我们的模型仍然表现良好，因为它对基线具有最佳性能。

冷启动和不规则设置。在本实验中，我们探讨了扩散- ts是否可以在常规数据缺失的情况下保持性能不下降。冷启动是指在数据很少或没有数据的情况下训练模型。我们分别只使用每个数据集中10/25/50/75%的时间序列数据作为训练数据。然后我们从其余数据集中删除时间序列值，导致数据点缺失10% ~ 20%的值。在数据集的规则部分冷启动后，我们利用模型来估算这些不规则时间序列，然后通过将它们合并到训练集中来继续训练。我们称此过程为不规则训练，图11显示了结果。我们观察到，即使在10%的训练阈值下，与表1中的基线相比，Diffusion-TS在多个时间序列数据集上仍然具有优越的结果。此外，在所有病例恢复后，弥散- ts都显示出更好的判别和预测评分。模型的性能始终处于无缺失数据的同一水平，说明在设置不充分和不规则的情况下，Diffusion-TS的有效性。

4.6消融研究

为了评估扩散- ts的有效性，我们将完整版本的扩散- ts与其三个变体进行了比较:(1) w/o FFT，即训练过程中不含傅里叶损失项的Diffusion-TS; (2) w/o Interpretability，即网络中不含季节趋势设计的Diffusion-TS; (3) w/o Transformer，即基于不含编码器和自关注机制的卷积网络的Diffusion-TS。(4) ϵ-prediction, Diffusion-TS采用传统的噪声预测参数化进行训练和采样。结果见表2(详细评价见附录C.1)。
在这里插入图片描述
我们可以发现，在每个数据集上，使用Diffusion-TS通常可以获得最好的结果。移除注意力和残留物通常会导致性能大幅下降。然而，当数据集(即fMRI)具有高频率和高维度时，仅具有可解释设计的网络可以实现最显著的性能改进。此外，fft损耗项和信号预测参数化在一般情况下也起着至关重要的作用。结论是，我们的设计在所有实验设置中都相对稳定。该分解不仅在不损失精度的情况下增加了可解释能力，而且在数据集中存在明显的频率波动时，促进了扩散模型的无条件生成。

五、结论

在本文中，我们提出了一种基于ddpm的通用时间序列生成方法Diffusion-TS。除了ddpm的生成能力外，Diffusion-TS还由ts特有的损耗设计和基于变压器的深度分解架构提供支持。此外，我们为无条件生成训练的模型可以很容易地扩展到条件生成，通过将梯度组合到采样中。实验表明，我们的模型能够胜任大范围的时间序列生成任务，并能达到有竞争力的性能。如表8所示，ddpm的一个显著限制是推理成本高，与基于gan的方法相比，生成样本需要更多的计算资源，尽管我们的底层模型无论如何都是轻量级的。对条件和无条件推理过程在较短时间内收敛的扩散- ts进行改进将是一个潜在的未来工作。