系列文章目录
概率多元时间序列预测的变压器调制扩散模型 ICLR 2024
文章目录
摘要
变压器在多变量时间序列(MTS)预测中得到了广泛的应用,并提供了令人印象深刻的性能。尽管如此,这些现有的基于变压器的方法往往忽略了一个重要方面:将不确定性纳入预测序列,这在决策中具有重要价值。在本文中,我们引入了变压器调制扩散模型(TMDM),将条件扩散生成过程与变压器结合到一个统一的框架中,以实现对MTS的精确分布预测。TMDM利用变压器的力量从历史时间序列数据中提取重要见解。然后将该信息用作先验知识,在扩散模型的正向和反向过程中捕获协变量依赖性。此外,我们将精心设计的基于转换的预测方法无缝集成到TMDM中,以提高其整体性能。此外,我们引入了两个新的指标来评估不确定性估计的性能。通过在6个数据集上使用4个评估指标的广泛实验,我们建立了TMDM在概率MTS预测中的有效性。
提示:以下是本篇文章正文内容
一、引言
时间序列预测在机器学习的商业和科学领域都发挥着关键作用,是支持一系列下游应用决策的重要工具。这些应用包括但不限于金融定价分析(Kim, 2003)、交通规划(Sapankevych & Sankar, 2009)和天气模式预测(Chatfield, 2000),以及其他各种领域(Rasul et al., 2022)。时间序列预测的主要目标是基于表示为 x 0 : N ∈ R d × N x_{0:N}\in\mathbb{R}^{d\times{N}} x0:N∈Rd×N的历史时间序列数据集,预测响应变量 y 0 : M ∈ R d × M y_{0:M}\in\mathbb{R}^{d\times M} y0:M∈Rd×M。这个预测过程的特征是函数 f ( x 0 : N ) ∈ R d × M f(\boldsymbol{x_{0:N}})\in\mathbb{R}^{d\times M} f(x0:N)∈Rd×M,其中f是一个确定性函数,它将历史时间序列 x 0 : N x_{0:N} x0:N转换为未来时间序列 y 0 : M y_{0:M} y0:M。
现有的时间序列预测方法一般采用加性噪声模型来表示未来时间序列 y 0 : M = f ( x 0 : N ) + n 0 \boldsymbol{y}_{0:M}=f(\boldsymbol{x}_{0:N})+\boldsymbol{n}_0 y0:M=f(x0:N)+n0,其中 n 0 n_0 n0服从正态分布 N ( 0 , σ 2 ) \mathcal{N}(0,{{\sigma}^{2}}) N(0,σ2)。因此,在给定 x 0 : N \boldsymbol{x}_{0:N} x0:N的情况下,我们可以计算出 y 0 : M \boldsymbol{y}_{0:M} y0:M的期望值为 E [ y 0 : M ∣ x 0 : N ] \mathbb{E}[\boldsymbol{y}_{0:M}|x_{0:N}] E[y0:M∣x0:N] = f ( x 0 : N ) . f(\boldsymbol{x}_{0:N}). f(x0:N).。经典时间序列预测方法(Liu et ., 2022;Wang et al., 2022;Zhou等人,2021)依赖于这种加性噪声模型,通常通过准确估计条件均值 E [ y 0 : M ∣ x 0 : N ] \mathbb{E}[\boldsymbol{y}_{0:M}|x_{0:N}] E[y0:M∣x0:N]来提供单变量预测。这些模型近年来取得了重大进展,特别是采用了基于变压器的体系结构。变压器利用自关注机制和设计,有效地处理时间序列特征。这种增强使变压器能够在连续数据中的长期依赖关系建模方面表现出色(Wu等人,2021),从而能够开发更有效的大规模模型(Kenton & Toutanova, 2019)。
然而,上述方法较少关注噪声分布是否能准确捕获给定 x 0 : N x_{0:N} x0:N时 y 0 : M y_{0:M} y0:M的不确定性。在时间序列预测中,建模不确定性至关重要,因为它直接影响我们评估下游应用预测可靠性的能力(Rasul et al., 2021b)。这种不确定性显著影响决策的准确性。例如,如果一个点估计模型预测明天温度的条件平均 E [ y 0 : M ∣ x 0 : N ] \mathbb{E}[\boldsymbol{y}_{0:M}|\boldsymbol{x}_{0:N}] E[y0:M∣x0:N]是12◦C,那么个人仍然面临着一个艰难的决定,即今天是否要种植植物,因为早上的温度可能会骤降到4◦C,危及植物的生存。这些模型忽略了与不确定性相关的风险,这在某些情况下可能特别重要(Kim, 2003;Sapankevych & Sankar, 2009)。另一个例子是,如果我们将明天的预测温度赋值为高斯分布,则相应的不确定性(用N(12,22)或N(12,82)表示)可能直接影响决策过程。本文的主要目标是恢复未来时间序列 y 0 : M \boldsymbol{y}_{0:M} y0:M的完整分布,条件是由现有的设计良好的基于变压器的模型捕获的表示。为了实现这一目标,我们引入了一种称为变压器调制扩散模型(TMDM)的新框架,该框架统一了条件扩散生成过程(Ho et al., 2020;Sohl-Dickstein等,2015;Song et al., 2020)与变压器,促进准确的时间序列分布预测。
最近,基于扩散的生成模型由于其生成高维数据和提供训练稳定性的能力而引起了极大的关注(Han et al., 2022)。这些模型可以从不同的角度来看待,包括分数匹配(Hyv¨arinen & Dayan, 2005;Vincent, 2011)和Langevin dynamics (Neal et al., 2011;Welling & Teh, 2011)。然而,最近我们通过扩散概率模型对这些模型的理解有了进展(Graikos et al., 2022)。这些模型最初采用前向过程将数据转换为噪声,随后使用反向过程从噪声中重新生成数据(Ho et al., 2020)。
当前的时间序列扩散模型(Rasul et al., 2021a;Tashiro等人,2021;Alcaraz & Strodthoff, 2022;Shen & Kwok, 2023)主要专注于制作有效的条件嵌入以馈送到去噪网络中,这反过来又指导扩散模型中的反向过程。例如,TimeGrad (Rasul et al., 2021a)使用来自RNN的隐藏状态作为条件嵌入,而TimeDiff (Shen & Kwok, 2023)基于为时间序列数据明确设计的两个特征构建这种嵌入。与在反向过程中只使用条件嵌入的流行方法不同,TMDM在正向和反向过程中都使用条件信息作为先验知识。我们认为这种方法是利用现有基于变压器的时间序列模型捕获的表征的更有效的方法(Liu et al., 2022;Wang et al., 2022)作为条件,考虑到他们对估计条件均值 E [ y 0 : M ∣ x 0 : N ] \mathbb{E}[\boldsymbol{y}_{0:M}\mid\boldsymbol{x}_{0:N}] E[y0:M∣x0:N]的熟练程度。通过这种强大的先验知识,TMDM旨在捕获未来时间序列 y 0 : M \boldsymbol{y}_{0:M} y0:M的不确定性,最终提供对整个分布的全面估计。
我们总结了以下贡献:(1)在概率多元时间序列预测领域,我们引入了基于变压器的扩散生成框架TMDM。TMDM利用由设计良好的基于变压器的时间序列模型捕获的表示作为先验。我们考虑了扩散模型中正向和反向过程的协变量依赖性,从而对未来时间序列进行了高度准确的分布估计。(2) TMDM将扩散模型和基于变压器的模型集成在一个内聚贝叶斯框架内,采用混合优化策略,作为一个即插即用框架,与现有设计良好的基于变压器的预测模型无缝兼容;利用其强大的估计时间序列条件均值的能力,便于对完全分布的估计。(3)在实验评估中,我们探索了预测区间覆盖概率(PICP) (Yao et al., 2019)和分位数区间覆盖误差(QICE) (Han et al., 2022)作为指标在概率多元时间序列预测任务中的应用。这些指标为评估概率多变量时间序列预测模型的不确定性估计能力提供了有价值的见解。我们的研究证明了TMDM在六个真实数据集的四个分布指标上的出色表现,强调了其在概率MTS预测中的有效性。
二、背景
2.1扩散模型
扩散概率模型(Sohl-Dickstein et al., 2015)的形式为 p θ ( y 0 : M 0 ) : = p_{\theta}(\boldsymbol{y}_{0:M}^{0})\quad:= pθ(y0:M0):= ∫ p θ ( y 0 : M 0 : T ) d y 0 : M 1 : T \int p_\theta(\boldsymbol{y}_{0:M}^{0:T})d\boldsymbol{y}_{0:M}^{1:T} ∫pθ(y0:M0:T)dy0:M1:T,其中 y 0 : M 1 , . . . , y 0 : M T \boldsymbol{y}_{0:M}^{1},...,\boldsymbol{y}_{0:M}^{T} y0:M1,...,y0:MT为潜在变量(Ho et al., 2020)。一个著名的扩散模型是去噪扩散概率模型(DDPM) (Ho et al., 2020),它由两个过程组成:正向(扩散)过程和反向过程。按照马尔可夫链,正演过程逐渐加入噪声,将输入向量 y 0 : M 0 \boldsymbol{y}_{0:M}^{0} y0:M0变换为高斯噪声向量 y 0 : M T \boldsymbol{y}_{0:M}^{T} y0:MT步长:
其中
β
t
\beta^{t}
βt表示一个小的正常数,表示噪声水平。在实际应用中,我们直接从
y
0
:
M
0
y_{0:M}^0
y0:M0中抽取
y
0
:
M
t
y_{0:M}^t
y0:Mt为:
q
(
y
0
:
M
t
∣
y
0
:
M
0
)
=
N
(
α
t
y
0
:
M
0
,
(
1
−
α
t
)
I
)
,
q(\boldsymbol{y}_{0:M}^{t}|\boldsymbol{y}_{0:M}^{0})=\mathcal{N}(\sqrt{\alpha^{t}}\boldsymbol{y}_{0:M}^{0},(1-\alpha^{t})\boldsymbol{I}),
q(y0:Mt∣y0:M0)=N(αty0:M0,(1−αt)I),其中
α
ˉ
t
:
=
1
−
β
t
a
n
d
α
t
:
=
∏
t
=
1
T
α
ˉ
t
.
\bar{\alpha}^{t}:=1-\beta^{t}\mathrm{~and~}\alpha^{t}:=\prod_{t=1}^{T}\bar{\alpha}^{t}.
αˉt:=1−βt and αt:=∏t=1Tαˉt.。反向过程涉及将
y
0
:
M
t
y_{0:M}^t
y0:Mt去噪回
y
0
:
M
0
y_{0:M}^0
y0:M0,并定义为具有学习高斯转移的马尔可夫链:
在DDPM (Ho et al., 2020)中,
p
θ
(
y
0
:
M
t
−
1
∣
y
0
:
M
t
)
p_\theta(\boldsymbol{y}_{0:M}^{t-1}\mid\boldsymbol{y}_{0:M}^t)
pθ(y0:Mt−1∣y0:Mt)的参数化定义为:
其中 ϵ θ \epsilon_{\theta} ϵθ为去噪函数,可通过求解以下优化问题进行训练:
利用训练好的去噪函数
ϵ
θ
\epsilon_{\theta}
ϵθ,我们可以从N(0, I)随机逐级生成样本。然而,在时间序列预测的背景下,目标是生成以历史时间序列
x
0
:
N
x_{0:N}
x0:N为条件的未来时间序列
y
0
:
M
y_{0:M}
y0:M。几项研究(Rasul et al., 2021a;Tashiro等人,2021;Alcaraz & Strodthoff, 2022;Shen & Kwok, 2023)通过在逆向过程中注入历史条件信息来指导生成过程,探索了适应该任务的扩散模型。
2.2概率多元时间序列预测
给定观察历史MTS
x
0
:
N
=
{
x
1
,
x
2
,
.
.
.
,
x
N
∣
x
t
∈
R
d
}
\boldsymbol{x}_{0:N}=\{x_{1},x_{2},...,x_{N}|x_{t}\in\mathbb{R}^{d}\}
x0:N={x1,x2,...,xN∣xt∈Rd},概率多元时间序列预测解决了估计后续未来时间序列y0的分布的问题:
y
0
:
M
=
{
p
(
y
1
)
,
p
(
y
2
)
,
.
.
.
,
p
(
y
M
)
∣
y
t
∈
R
d
}
.
\boldsymbol{y}_{0:M}=\{p(y_{1}),p(y_{2}),...,p(y_{M})\mid y_{t}\in\mathbb{R}^{d}\}.
y0:M={p(y1),p(y2),...,p(yM)∣yt∈Rd}.。然而,必须注意的是,p(yt)的确切分布在计算上是难以处理的,这促使人们开发了各种近似p(yt)的方法。从扩散生成的角度(Sohl-Dickstein et al., 2015),我们建立了一个具有学习高斯跃迁的马尔可夫链(Geyer, 1992),从
p
(
y
0
:
M
T
)
=
N
(
0
,
I
)
p(\boldsymbol{y}_{0:M}^{T})=\mathcal{N}(\boldsymbol{0},\boldsymbol{I})
p(y0:MT)=N(0,I)开始,估计
y
0
:
M
y_{0:M}
y0:M的分布。
概率多元时间序列预测的一个基本前提是观测历史
x
0
:
N
\boldsymbol{x}_{0:N}
x0:N与未来时间序列
y
0
:
M
y_{0:M}
y0:M之间的连续性和相互关系。然而,出现了两个重大挑战:首先,如何从
x
0
:
N
\boldsymbol{x}_{0:N}
x0:N中提取有价值的时间序列信息(Shen & Kwok, 2023),其次,如何有效地利用这些信息来指导生成过程。现有的基于变压器的时间序列预测模型(Liu et al., 2022;Wu et al., 2021;Wang et al., 2022;Zhou et al., 2021)倾向于忽略对时间序列不确定性的估计。但是,它们仍然有专门设计的结构来捕获时间序列中的信息,这些信息可以直接用作条件信息。关于第二个挑战,最近的模型(Rasul et al., 2021a;Alcaraz & Strodthoff, 2022)尝试在反向过程中将条件嵌入注入去噪网络。与这些方法相反,我们提出的模型TMDM使用条件信息作为扩散模型中正向和反向过程的先验知识。通过将条件信息集成到前向过程中,TMDM可以在去噪过程中考虑更丰富的条件信息集。这种增强使TMDM能够更好地学习
x
0
:
N
\boldsymbol{x}_{0:N}
x0:N(由条件捕获)和
y
0
:
M
y_{0:M}
y0:M(生成的目标)之间的固有时间序列属性。
图1:拟议TMDM的示例。左边是条件生成模型,包含一个现有的设计良好的变压器,用于生成条件 y 0 : M y_{0:M} y0:M。右部分是提出的基于条件扩散的时间序列生成模型,该模型以 y 0 : M y_{0:M} y0:M为先验,并在正向和反向扩散链中引入协变量依赖。
2.3评估不确定度估计的picp和qice
为了增强概率多变量时间序列预测任务中不确定性估计能力的评估,我们引入了两个新的指标:预测区间覆盖概率(PICP) (Yao等人,2019)和分位数区间覆盖误差(QICE) (Han等人,2022)。PICP的计算公式如下:其中,在给定相同的
x
0
:
N
x_{0:N}
x0:N输入的情况下,我们对预测的
y
0
:
M
y_{0:M}
y0:M输出选择的低百分位数和高百分位数
y
^
n
l
o
w
a
n
d
y
^
n
h
i
g
h
\hat{y}_n^\mathrm{low}\mathrm{~and~}\hat{y}_n^\mathrm{high}
y^nlow and y^nhigh。在学习分布准确代表真实分布的情况下,这种测量应该与所选的低百分位数和高百分位数之间的差异紧密一致(Han et al., 2022)。QICE可以看作是PICP的扩展,具有更高的粒度,没有任何未覆盖的分位数范围。其计算如下:
有了足够数量的
y
0
:
M
\boldsymbol{y}_{0:M}
y0:M样本,第一步是将它们划分为M个分位数区间(qi),每个分位数区间的大小大致相等。随后,确定每个QI边界对应的分位数值。与PICP相比,QICE提供了更详细的评估。在一个QI中的真实实例较少的情况下,另一个QI可能会捕获更多的实例,从而可能导致两个QI中的绝对误差增加。此外,我们利用连续排序概率评分(CRPS) (Matheson & Winkler, 1976;Gneiting & Raftery, 2007)和CRPSsum对时间序列的每个维度进行评估。CRPSsum表示所有时间序列维度之和计算的CRPS。
三、 PROPOSED METHOD
在本节中,我们介绍了TMDM,这是一个结合了扩散生成过程的新框架(Ho et al., 2020;Sohl-Dickstein et al., 2015)和设计良好的变压器结构(Liu et al., 2022;Wang et al., 2022)。这些变压器模型擅长于准确估计条件均值 E [ y 0 : M ∣ x 0 : N ] \mathbb{E}[\boldsymbol{y}_{0:M}\mid x_{0:N}] E[y0:M∣x0:N],而TMDM扩展了这一能力,以恢复未来时间序列y0:M的完整分布。如图1所示,TMDM由两个主要组成部分组成:变压器驱动的条件分布学习模型(条件生成模型)和基于条件扩散的时间序列生成模型。这两个模型被集成到一个统一的贝叶斯框架中,利用混合优化方法。从概念的角度来看,TMDM可以被视为贝叶斯生成模型(Tran et al., 2019),其生成过程可以表示为:
在本文中,我们利用精心设计的变压器,包括非平稳变压器(Liu et al., 2022),自耦变压器(Wu et al., 2021)和告密者(Zhou et al., 2021),来捕获嵌入在历史时间序列
x
0
:
M
x_{0:M}
x0:M中的信息。我们利用这些信息对潜在变量z进行建模,进而生成条件表示
y
^
0
:
M
\hat{\boldsymbol{y}}_{0:M}
y^0:M。这种表示作为后续正向和反向过程的条件。
3.1 LEARNING TRANSFORMER POWERED CONDITIONS
现有时间序列扩散模型(Rasul et al., 2021a;Tashiro等人,2021;Alcaraz & Strodthoff, 2022;Shen & Kwok, 2023)主要专注于设计有效的条件嵌入来指导反向过程。相比之下,我们的方法提倡利用已建立的基于变压器的时间序列模型所捕获的表示。这种转变提供了几个明显的优势。首先,近年来在点估计时间序列预测任务方面取得了重大进展。对时间序列特性的广泛研究导致了为此目的量身定制专用变压器的建议(Liu et al., 2022;Wu et al., 2021;Wang et al., 2022)。我们认为,采用这种变压器衍生的条件比依靠自行设计的条件嵌入更有效。其次,这些专用变压器表现出较强的估计条件均值 E [ y 0 : M ∣ x 0 : N ] \mathbb{E}[y_{0:M}|x_{0:N}] E[y0:M∣x0:N]的能力。采用该估计均值作为条件,扩散模型可以更有效地集中于不确定性的估计,简化了生成过程。相反,使用其他特殊设计的条件,如未来的混合(Shen & Kwok, 2023),可能会引入新的信息,但需要扩散模型同时估计平均值和不确定性,使生成更加复杂。最后,TMDM作为一个通用的即插即用框架,弥合了点估计和分布估计之间的差距。如果改进的变压器结构用于点估计出现,我们可以无缝地将这些进步集成到分布估计领域。
给定变压器结构
T
(
⋅
)
\mathscr{T}(\cdot)
T(⋅)和历史时间序列
x
0
:
N
x_{0:N}
x0:N,我们可以用
T
(
x
0
:
N
)
\mathscr{T}(\boldsymbol{x}_{0:N})
T(x0:N)来表示。这个表示是近似z的真实后验分布的指导因素。这个过程定义如下:
给定一个学习良好的z,我们可以生成如下的条件表示 y ^ 0 : M \hat{\boldsymbol{y}}_{0:M} y^0:M:
本文采用神经网络对三个非线性函数
μ
~
z
,
σ
~
z
,
a
n
d
μ
z
,
\tilde{\mu}_z,\tilde{\sigma}_z,\mathrm{and~}\mu_z,
μ~z,σ~z,and μz,进行建模。我们将表示协方差矩阵的σz初始化为单位矩阵I。通过这种方式,我们定义了一个潜在变量z来总结设计良好的变压器捕获的信息。然后使用这个潜在变量为TMDM中随后的正向和反向过程生成条件表示
y
^
0
:
M
\hat{\boldsymbol{y}}_{0:M}
y^0:M。
3.2条件扩散的时间序列生成模型
与假设扩散过程的端点
y
0
:
M
T
,
y_{0:M}^T,
y0:MT,符合标准正态分布N(0,1)的传统扩散模型不同,我们将条件表示
y
^
0
:
M
合并到
p
(
y
0
:
M
T
)
\hat{\boldsymbol{y}}_{0:M}\text{ 合并到 }p(\boldsymbol{y}_{0:M}^T)
y^0:M 合并到 p(y0:MT)中,以更好地解释方程10中的条件信息。受Han等人(2022)的启发,我们将扩散过程的端点建模如下:
其中,公式10中定义的
y
^
0
:
M
\hat{y}_{0:M}
y^0:M包含了变压器捕获的信息。在式11中,
y
^
0
:
M
\hat{y}_{0:M}
y^0:M可以看作是基于
x
0
:
N
x_{0:N}
x0:N估计条件均值的先验知识。对于扩散调度
{
β
t
}
t
=
1
:
T
∈
(
0
,
1
)
\{\beta^t\}_{t=1:T}\in(0,1)
{βt}t=1:T∈(0,1),则前向过程在其他时间步长的条件分布可定义为:
在实际应用中,我们用任意时间步长t从
y
0
:
M
0
y_{0:M}^0
y0:M0直接采样
y
0
:
M
t
y_{0:M}^t
y0:Mt:
在这里,我们定义
α
ˉ
t
:
=
1
−
β
t
a
n
d
α
t
:
=
∏
t
=
1
T
α
ˉ
t
.
\bar{\alpha}^{t}:=1-\beta^{t}\mathrm{~and~}\alpha^{t}:=\prod_{t=1}^{T}\bar{\alpha}^{t}.
αˉt:=1−βt and αt:=∏t=1Tαˉt.。在Eq. 12平均项中,扩散过程可以被概念化为真实数据
y
0
:
M
0
y_{0:M}^{0}
y0:M0与条件表示
y
^
0
:
M
\hat{\boldsymbol{y}}_{0:M}
y^0:M之间的插值。它从真实数据
y
0
:
M
0
y_{0:M}^{0}
y0:M0开始,逐渐过渡到
y
^
0
:
M
\hat{\boldsymbol{y}}_{0:M}
y^0:M。该方法有效地利用了变压器
T
(
⋅
)
.
\mathscr{T}(\cdot).
T(⋅).的可靠条件均值估计E[
y
0
:
M
y_{0:M}
y0:M|
x
0
:
N
x_{0:N}
x0:N]。在相应的逆向过程中,以含有能够准确估计
E
[
y
0
:
M
∣
x
0
:
N
]
\mathbb{E}[\boldsymbol{y}_{0:M}|{\boldsymbol{x}_{0:N}}]
E[y0:M∣x0:N]的信息的
y
^
0
:
M
\hat{y}_{0:M}
y^0:M发起,生成过程显著简化。如果提供的条件足够好,则模型可以专门关注不确定性估计。
类似于许多为时间序列设计的扩散模型(Rasul et al., 2021a;Shen &Kwok, 2023),将条件表示纳入反向过程是至关重要的 y ^ 0 : M \hat{\boldsymbol{y}}_{0:M} y^0:M.考虑Eq. 12中的正向过程,正向过程对应的可管理后验为:
推导可以在附录D中找到。
3.3混合优化
在本文中,我们将条件生成模型和去噪模型整合为一个统一的优化目标。条件生成模型结合了变压器 T ( ⋅ ) \mathscr{T}(\cdot) T(⋅)结构和与潜在变量z相关的网络。在扩散模型组件中,训练了一个去噪模型。如式8所示,TMDM的优化目标是使对数边际似然的证据下界(ELBO)最大化,其公式为:
在Eq. 15中,第一项,记为
L
d
i
f
f
u
s
i
o
n
\mathcal{L}_{\mathrm{diffusion}}
Ldiffusion,引导去噪模型预测不确定性,同时巧妙地调整条件生成模型,以提供更合适的条件表示。我们认为这是混合优化的一个优势。第二项
L
c
o
n
d
\mathcal{L}_{\mathrm{cond}}
Lcond的引入是为了保持条件生成模型对条件均值
E
[
y
0
:
M
∣
x
0
:
N
]
\mathbb{E}[\boldsymbol{y}_{0:M}|\boldsymbol{x}_{0:N}]
E[y0:M∣x0:N]的准确估计能力。通过利用设计良好的转换器的功能,它还有助于生成改进的条件表示。其中,
D
K
L
(
q
∥
p
)
\mathbf{D}_{KL}(q\|p)
DKL(q∥p)表示从分布p到分布q的Kullback-Leibler (KL)散度。上述目标可表示为:
在式16中,前两行源于
L
d
i
f
f
u
s
i
o
n
\mathcal{L}_{\mathrm{diffusion}}
Ldiffusion,后两行源于
L
c
o
n
d
\mathcal{L}_{\mathrm{cond}}
Lcond。算法1采用端到端随机梯度下降法对模型参数进行优化。算法2概述了推理过程。
四、实验
4.1实验设置
数据集:选取了6个具有不同时空动态的真实数据集,包括电力、ILI、ETT、交易所、交通和天气。表1给出了这些数据集的基本统计信息。详情见附录A。
实现细节:在我们的实验中,我们将时间步长设置为T = 1000,并采用β1 = 10−4和βT = 0.02的线性噪声调度,与Ho et al.(2020)的设置一致。对于PICP,我们选择了第2.5和97.5百分位。因此,学习模型的理想PICP值应为95%。我们使用100个样本来近似估计分布,所有实验重复10次,记录均值和标准差。更多细节见附录B。
4.2主要结果
4.2.1基线
我们将我们的模型与14条不同实验设置的基线进行了广泛的比较。包括基于扩散的时间序列模型:TimeGrad (Rasul等人,2021a)、CSDI (Tashiro等人,2021)、SSSD (Alcaraz & Strodthoff, 2022)、D3VAE (Li等人,2022)和TimeDiff (Shen & Kwok, 2023);基于变压器的模型:变压器- maf (Rasul等人,2021b)、变压器(Vaswani等人,2017)、告密者(Zhou等人,2021)、自变换器(Wu等人,2021)和非变换器(Liu等人,2022);基于VAE的模型:VAE (Higgins等人,2016)、cST-ML (Zhang等人,2020)和DAC-ML (Zhang等人,2021);以及另一种精心设计的方法:GP-Copula (Salinas et al., 2019)。
4.2.2定性分析
为了强调我们的分布估计能力,我们在图2中给出了预测的中位数,并将50%和90%的分布区间可视化。我们将TMDM与其他三种模型进行比较:TMDM-min: TMDM的简化版本,在条件生成模型中使用基本转换器。TimeDiff:在非自回归设置下运行的最新时间序列预测模型。然而,它主要是为点对点预测任务而设计的,这可能不会优先考虑概率预测。TimeGrad:一个著名的基于扩散的自回归模型。
总的来说,与其他三种模型相比,TMDM展示了更好的分布估计性能。虽然TMDM-min表现出比TMDM更差的均值和不确定性估计,但我们将其归因于在条件生成模型中使用了不同的变压器。TMDM中使用的NSformer对均值估计功能更强大,有助于更好地估计整体分布。TimeDiff是为点对点预测任务而设计的,它生成宽度不同的分布间隔。因此,离真值较远的样本点是稀疏的。在具有挑战性的场景(列3、4和5)中,由于中间部分缺少点,50%的分布间隔突然扩大。这突出了点对点预测在捕获真实多变量时间序列数据方面的局限性,使其在现实应用中不太实用。TimeGrad依赖于RNN来捕获时序信息,在估计较长的时间序列时表现不佳。有关更详细的结果,请参阅附录E和F。
图2:Exchange数据集的预测间隔比较。我们显示预测的中位数,并可视化50%和90%的分布区间,黑线表示测试集的真实值。
表2:根据QICE和CRPS在六个真实数据集上的性能比较。最好的结果是加粗的。
4.2.3定量比较
概率多变量时间序列预测:为了评估TMDM在概率多变量时间序列预测中的性能,我们将我们的模型应用于六个数据集以及几个竞争基线。采用4个指标(QICE、PICP、CRPS和CRPSsum)作为概率预测的绩效指标。此外,我们使用两个指标(MSE和MAE)来评估模型性能的其他方面。如表2所示,与我们的框架集成的NSformer在所有基准数据集中始终如一地实现了最先进(SOTA)的性能。值得注意的是,与之前的SOTA结果相比,TMDM使Exchange数据集的QICE显著降低17%(从5.32降至4.38),ILI数据集的QICE显著降低11%(从7.6降至6.74),ETTm2数据集的QICE显著降低23%(从4.88降至3.75),Electricity数据集的QICE显著降低27%(从5.26降至3.81),Traffic数据集的QICE显著降低32%(从3.5降至2.36)。天气降低24%(从5.14降至3.87)。值得注意的是,D3VAE (Li et al., 2022)和TimeDiff (Shen & Kwok, 2023)等模型最初是为点对点预测任务而设计的,其中概率预测并不是它们的主要关注点。因此,他们在QICE和PICP上的表现不是最优的。然而,他们在CRPS、CRPSsum(见附录C)、MSE和MAE(见表3)方面仍然表现出竞争力。由于CRPS可能无法有效评估分布范围的质量,这强调了在评估概率多变量时间序列预测模型时引入新指标(QICE和PICP)的重要性。有关其他结果,请参阅附录C。
表3:关于MSE和MAE的六个真实数据集的性能比较。最好的结果是加粗的。
消融研究:为了评估我们提出的框架中每个组成部分的影响,我们使用五种模型对三个数据集的预测结果进行了比较分析。如表4所示,MLP-cond和Autoformer-cond作为基线模型,在TMDM的条件生成模型中使用简单的MLP或Autoformer。N(0, I)-Prior利用NSformer生成条件嵌入,同时假设yT 0:M ~ N(0, I)为先验。当将我们提出的模型TMDM与MLP-cond和Autoformer-cond进行比较时,我们观察到有实质性的改进,平均QICE分别降低了42%和23%。这强调了利用现有设计良好的基于变压器的模型捕获的表示作为条件的有效性。此外,它还展示了我们将变压器结构的先进技术无缝集成到配电估计领域的能力。将N(0, I)-Prior与TMDM进行比较,我们注意到QICE平均降低了19%,突出了将条件信息作为正向和反向过程的先验的优势。最后,将No-hybrid与TMDM进行比较,我们观察到QICE显著降低16%,强调了我们提出的混合优化方法的有效性。
表5:通过将建议的框架应用于变压器及其变体来提升性能。
框架通用性:扩散模型由于其生成高维数据的能力和训练稳定性而受到广泛关注(Han et al., 2022)。在点对点预测任务的上下文中,TMDM作为一个通用框架运行,当与各种变压器配对时,它可以增强训练的稳定性。我们将框架应用于四个重要的变压器,在表5中展示了每个模型所实现的性能增强。我们的方法在多个实验中一致地减小了方差,提高了大多数变压器的点对点预测能力。
五、结论
在本文中,我们提出了TMDM,这是一个将扩散生成过程与现有设计良好的变压器模型相结合的创新框架。我们的方法利用了变压器的优势,特别是它们在估计条件均值方面的准确性,并将这种能力扩展为扩散模型中正向和反向过程的先验。采用该估计均值作为条件,扩散模型可以更有效地集中于不确定性的估计,简化了生成过程。TMDM作为一个通用的即插即用框架脱颖而出,有效地缩小了点估计和分布估计之间的差距。它可以与先进的变压器模型无缝集成,用于点估计,承诺更好的预测精度。我们引入了两个新的评估指标,丰富了评估概率多元时间序列预测模型不确定性的工具箱。我们在六个真实数据集上的综合实验一致地证明了TMDM的优越性能,强调了其在提高概率预测质量方面的有效性。