简介
论文地址:http://proceedings.mlr.press/v139/rasul21a/rasul21a.pdf
多元概率时间序列预测的自回归去噪扩散模型。提出了自回归EBMs(基于能量的模型),通过一个称为TimeGrad的模型来解决多元概率时间序列预测问题,利用RNN+扩散模型结合捕获时间序列特征。不仅能够用概率时间序列预测的所有归纳偏差来训练这样一个模型,而且与其他现代方法相比,该模型表现得非常好。
使用的协变量 c t c_t ct 由时间相关的(例如,一周中的一天、一天中的一小时)和时间无关的嵌入(如果适用)以及滞后特征组成,这取决于我们正在培训的数据集的时间频率。因此,对于我们希望预测的时期,所有协变量都是已知的。
实现流程
在这里不直接用前 t-1 个点预测 t 时间的点,而是结合diffusion model去预测,如下图所示。首先用前 t-1 个时间点
X
1
:
t
−
1
0
X^0_{1:t-1}
X1:t−10 和协方差
c
t
c_t
ct 通过RNN得到
h
t
−
1
h_{t-1}
ht−1 ,再把
h
t
−
1
h_{t-1}
ht−1 和
X
t
X_t
Xt 作为diffusion的输入(diffusion的神经网络是一个wavenet),预测噪声。
利用 LSTM 或GRU通过更新的隐藏状态
h
t
h_t
ht 对时间点 t 之前的时间序列进行编码,给定协变量
c
t
c_t
ct 的条件下
其中
R
N
N
θ
RNN_θ
RNNθ 是由共享权值 θ 和
h
0
=
0
h_0 = 0
h0=0 参数化的多层LSTM或GRU。因此,可以用模型来近似
也就是
训练时通过从训练时间序列数据中随机采样上下文和相邻的预测大小窗口,并优化参数 θ,使模型的负对数似然最小化(10):
从所选上下文窗口上运行RNN获得的隐藏状态
h
t
0
−
1
h_{t_0−1}
ht0−1开始,得到时间步长 t 和噪声指数 n的目标的条件变量由以下(7)的简化给出
当选择方差为
∑
θ
=
β
n
~
\sum_\theta = \tilde{\beta_n}
∑θ=βn~时,此时
ϵ
θ
\epsilon_\theta
ϵθ 网络也以隐藏状态为条件。
实验
用Traffic数据集展示预测效果,traffic有6个维度,分别展示了预测结果
消融实验
正向过程的长度N是一个关键的超参数,因为更大的N允许反向过程近似高斯,这有助于高斯参数化更好地近似它。N的大小决定了最后的实验结果,设置了不同的N的结果如上图所示。N=100时,基本不会在下降了。