时间序列中的因果推断

Autoregres  models

included:ARIMA(autoregressive moving average differencing )

自回归模型(英语:Autoregressive model,简称AR模型),是统计上一种处理时间序列的方法,用同一变数例如x的之前各期,亦即x1至xt-1来预测本期xt的表现,并假设它们为线性关系

AR决定了单变量不同时刻间的关系。

 

 

限制:必须具有自相关,自相关系数是关键。如果自相关系数(R)小于0.5,则不宜采用,否则预测结果极不准确。自回归只能适用于预测与自身前期相关的经济现象,即受自身历史因素影响较大的经济现象,如矿的开采量,各种自然资源产量等;对于受社会因素影响较大的经济现象,不宜采用自回归,而应改采可纳入其他变数的向量自回归模型。

MA

是一个常见的对单一变量时间序列进行建模的方法。

限制:必须具有自相关,自相关系数是关键。如果自相关系数(R)小于0.5,则不宜采用,否则预测结果极不准确。自回归只能适用于预测与自身前期相关的经济现象,即受自身历史因素影响较大的经济现象,如矿的开采量,各种自然资源产量等;对于受社会因素影响较大的经济现象,不宜采用自回归,而应改采可纳入其他变数的向量自回归模型。

MA:是一个常见的对单一变量时间序列进行建模的方法。

 

 非平稳数据通过差分使其平稳:

VAR模型

dynamic bayesian networks 

是贝叶斯网络(BN)的扩展,用于将随机变量的演化建模为离散时间步序列的函数,表示为有向无环图。形式上,贝叶斯网络由G=(V,E)定义,其中V和E是节点和边的集合。节点集合V的条件概率分布可以表示为因子化联合概率,由下式给出:

其中πx是节点x的父节点。DBN表示为两个贝叶斯网络Bp和B2d的对。Bp是对时间1处随机变量的先验分布进行建模的BN。B2d是表示从时间t-1到时间t的转变的两层BN,作为概率分布P(xt | xt−1) 对于属于V的节点x,通过如下的有向无环图G=(V,E):
 

如果我们将T定义为路径的总长度,则序列的联合分布由下式给出:
1. DBN中的变量被划分为两组变量,Vt=(Zt,Xt),代表状态空间模型的隐藏变量和输出(观察)变量。
2. 可以从数据中学习DBN的参数。基于概率分布和动力学假设(在可观测数据的情况下),使用最大似然估计(MLE)或最大A先验(MAP)。对于隐藏变量模型,通常使用期望最大化(EM)算法来学习参数。


state-space models


定义:状态空间模型使用潜在状态zt对时间序列数据进行建模,即对时间序列成分水平、趋势和季节性模式进行编码。SSM由状态转移方程表示,该方程描述了转移动力学p(zt|zt−1) 随着时间的推移,潜在状态的演变。它还表示一个观测模型,该模型描述了给定潜在状态的观测的条件概率p(xt | zt)。
例子:线性动力学系统(LDS),其中状态是实值的,随时间线性变化,满足一阶马尔可夫假设。LDS可由以下方程式表示:

 

其中A∈ R kXk,C∈ 而Q和R是协方差矩阵。状态和观测的联合概率由下式给出:
 

切换状态空间模型[51],使用M个实值隐藏状态空间向量z M t和一个离散状态向量st对观测值xt进行建模。具有M个可能值的多项式变量表示离散状态变量st∈ (1,…,M),用作开关变量。使用状态空间模型m表示观察到的变量,该模型以该离散状态为条件。离散状态遵循具有指定初始状态(p(s1))和转移概率矩阵(pst|st)的马尔可夫动力学。
实值状态变量具有线性高斯动力学,每个变量具有其过渡矩阵、初始状态和噪声。观察变量和隐藏变量的联合分布由下式给出:
 切换状态空间模型[51],使用M个实值隐藏状态空间向量z M t和一个离散状态向量st对观测值xt进行建模。具有M个可能值的多项式变量表示离散状态变量st∈ (1,…,M),用作开关变量。使用状态空间模型m表示观察到的变量,该模型以该离散状态为条件。离散状态遵循具有指定初始状态(p(s1))和转移概率矩阵(pst|st)的马尔可夫动力学。
实值状态变量具有线性高斯动力学,每个变量具有其过渡矩阵、初始状态和噪声。观察变量和隐藏变量的联合分布由下式给出:

Hidden Markov Model


基本理论:隐马尔可夫模型是马尔可夫链的一种,它的状态不能直接观察到,但能通过观测向量序列观察到,每个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有相应概率密度分布的状态序列产生。所以,隐马尔可夫模型是一个双重随机过程----具有一定状态数的隐马尔可夫链和显示随机函数集。
基本算法:
*1 评估问题: 直接计算法(概念上可行,计算上不科学)、前向算法、后向算法
*2 解码问题:
Viterbi算法:使用动态规划求解概率最大(最优)路径。
近似算法:选择每一时刻最有可能出现的状态,从而得到一个状态序列。
*3 学习问题: Baum-Welch算法(向前向后算法)、监督学习算法
具体实例:
    假设你有一个住得很远的朋友,他每天跟你打电话告诉你他那天做了什么。你的朋友仅仅对三种活动感兴趣:公园散步,购物以及清理房间。他选择做什么事情只凭天气。你对于他所住的地方的天气情况并不了解,但是你知道总的趋势。在他告诉你每天所做的事情基础上,你想要猜测他所在地的天气情况。你认为天气的运行就像一个马尔可夫链。其有两个状态“雨”和“晴”,但是你无法直接观察它们,也就是说,它们对于你是隐藏的。每天,你的朋友有一定的概率进行下列活动:“散步”、“购物”、“清理”。因为你朋友告诉你他的活动,所以这些活动就是你的观察数据。这整个系统就是一个隐马尔可夫模型(HMM)。你知道这个地区的总的天气趋势,并且平时知道你朋友会做的事情。也就是说这个隐马尔可夫模型的参数是已知的。
Gaussian Processes
贝叶斯推理被用来处理噪声和动态环境中的不确定性。
高斯过程是一类贝叶斯非参数模型,特别适用于时间序列数据的建模。特别是,高斯过程(GP)是一类随机过程,它定义了随机变量集合上的联合高斯分布。遵循高斯过程的函数(f(x))由平均值(m(x)和协方差(k(x,x 0)函数指定,表示为f(x∼ GP(m(x),k(x,x 0))。形式上,负责生成给定X的Y的高斯过程由下式给出:

将Deep模型与高斯过程相结合以创建深高斯过程(Deep GP)模型。

这些框架通常使用神经网络将输入映射到特征空间(提取非平稳特征),而最后一层稀疏高斯过程在潜在空间上执行回归。例如:

  1. Wilson等人[169]提出利用完全连接和卷积神经网络作为频谱混合基核的输入,并使用局部核插值[167]、频谱混合协方差函数[166]、诱导点[122]和结构利用代数[138],为高斯过程创建更强大和更具表现力的闭合形式协方差核。

  2. Maddix等人[106]提出了一种可扩展的混合模型,该模型结合了深度神经网络和经典时间序列模型,以执行准确的预测,同时考虑了不确定性。该模型由全局深度神经网络和局部高斯过程模型组成。

Neutral Networks

  1. 对于更复杂、有噪声和更高维度的真实世界数据模型假设技术(如ARIMA),状态空间模型不是一种有效的技术,因为动态是未知的或过于复杂。各种无监督生成模型已经被扩展到时间序列数据以解决这个问题。

  2. 使用递归模型(如RNN和LSTM)生成序列的方法,通过处理每一步(xt)的真实数据并预测下一步(xt+1)的值。每一步的输出预测(yt)都是概率性的,并从中采样,作为下一步的输入。从已经训练好的网络中,在每一步重复采样,并将其传递到下一步,产生一个新的序列。

  3. 尽管理论上是可能的,但RNN在实践中难以捕获长期依赖性,因此使用LSTM可以在各种门控机制的帮助下捕获长期依赖关系。

  4. 隐藏层被堆叠以增加跨越空间的深度,以允许在每个时间步长捕获更高的非线性。输入序列x的概率由Pr(x)给出=QT t=1 P r(xt+1 | yt)。

受限玻尔兹曼机(RBM)是输入节点(可观察)和潜在节点(隐藏)之间的生成概率模型,由权重矩阵(W)连接,并分别具有相关的偏置向量c和b,在各种工作中扩展用于序列数据。通常通过使用对比散度最小化重建误差来训练模型。条件RBM和时间RBM通过当前隐藏单元和过去可观察单元之间的连接以及用于捕获短期时间模式的自回归权重,扩展了RBM模型。偏置向量和过去可见单位之间的相关性由以下定义

其中Bi和Ai是分别将当前隐藏单元和当前可观察单元连接到时间t的可观察单元的权重矩阵、 因此,激活隐藏单元和可见单元的条件概率变为:

 

其他进展:

  1. Oord等人提出了一种基于CNN的架构,称为WaveNet,用于生成音频波形。WaveNet试图近似时间序列X的联合概率=(x1,x2,…,xT)。WaveNet使用一种特殊的卷积层,称为扩张因果卷积。因果卷积迫使任何时间步的预测依赖于先前的时间步,并防止依赖于未来的时间步。扩张卷积是一种滤波器,通过用零扩张,在某些步骤跳过输入值,可以跨越比其长度更大的范围,因此随着深度的增加,增加滤波器的感受野。

  2. 此外,还使用门控激活单元,使网络能够保存和忘记某些输入值。未抽取的完全卷积网络(UFCNN),使用具有一维因果滤波器的完全卷积层,并且滤波器在第1分辨率级别的上采样率为2l−1以及去除最大池化层和其他上采样算子。

基于生成对抗网络(GAN)的模型也被提出用于时间序列生成。

  1. Mogren等人提出了C-RNN-GAN,通过对序列的联合概率分布进行建模来生成连续序列数据。发生器采用LSTM设计,鉴别器由双向RNN组成。使用标准GAN损失训练模型。

  2. Yoon等人认为,对生成器和鉴别器使用递归网络,并对序列上的GAN损失求和,不足以捕捉数据的时间动态。他们提出了逐步监督损失和无监督对抗性损失,以鼓励模型捕获逐步时间依赖性。

基于因果关系的时间序列模型的因果推断的概念

重点:

  1. 因果处理效果估计

  2. 因果发现

  3. 时间序列中的因果发现 

背景:时间序列决策者的因果处理效果评估通常面临评估干预(即政策变化)对利益结果的影响的挑战。例如,一个州政府希望利用提议前后的可用数据来评估烟草控制计划对卷烟销售的影响[1]。有必要评估设计的或无意的政策和干预措施的积极和消极价值后果,以确定其是否有效。

基于处理效应的时间:

(1)时间不变处理效果,(2)时变处理效应,(3)动态机制。

基于上述专门为时间序列数据设计的类别的因果治疗效果估计的最新发展和现有应用。

时间不变的干预影响

DID

时间序列类型:线性/非线性时间序列

其中Z(t)是控制时间序列,通过β成分与治疗时间序列(即X(t))相关。

v(t)、w(t)和u(t)是零均值噪声变量,µ(t)对X(t)中的时间相关性进行建模。δ(t)分量可以被认为是时间t的斜率− 1或时间t之间µ的预期增加−将模型拟合到观测数据t=1,2,…,t,将反事实t=t+1,t+2,…,n作为未观测的随机变量。

通过这些,模型将计算反事实时间序列的后验分布。通过从观察到的处理时间序列中减去预测值来估计因果效应,这捕获了半参数贝叶斯后验分布。

治疗后,我们只能观察一个时间序列的治疗结果和另一个时间系列的控制结果,但不能观察前者控制和后者治疗的潜在结果。通过状态空间模型学习干预效果来填补缺失的结果。

优点:当研究中的结果变量不连续相关且遵循共同趋势假设时,该方法适用。

案例:各种(经济学、社会学、医疗保健、市场营销)

依赖时间的治疗效应

       问题描述:给定观察到的时间序列和感兴趣的目标时间序列,我们能否在不排除隐藏时间序列的情况下确定目标的原因?
      作者观察到的约束是指一些隐藏时间序列的目标和“记忆”(在某些情况下,缺乏对自身过去的依赖)。作者将假设限制在那些可以自然地从环境中得出并且无法避免的假设。 因此,作者避免其他方法做出的强假设,例如排除隐藏的常见原因(导致多个观察到的未观察到的时间序列)。
具化下场景:德国乳制品价格的时间序列如下图所示,从这些数据能找出黄油价格波动的原因吗? 

  

Dynamic Treatment Regimes

  1. 动态机制治疗旨在仅在个人需要治疗时为其提供治疗。动态治疗机制是一种功能,它将治疗和协变历史作为参数,并输出要采取的行动,为如何分配治疗提供一系列决策规则。图3显示了两阶段动态治疗方案,其中X和a分别表示分类协变量和治疗。两阶段治疗中参与者的可观察数据轨迹由(X1,A1,X2,A2)表示,其中X1是治疗前协变量,X2是时变协变量,其可能取决于在第一间隔中接受的治疗。

  2. 随机治疗措施为A1和A2,主要结果为Y=f(X1,A1,X2,A2)。例如,X2(A1)表示一个人在第二间隔开始时的潜在协变状态,如果该人接受治疗A1,Y表示如果遵循方案(A1,A2),则可能的结果。回归函数被广泛用于动态治疗方案中,以估计大规模治疗的效果。为了学习遗憾函数中的参数ψ,使用了g估计。为了估计,Sj(aj)=Sj(ajj,hj)取决于被视为与治疗相互作用以影响结果的变量,其中hj是未测量的混杂因素。例如如果第二间隔处的函数是线性的,

 文章参考:

1. https://arxiv.org/abs/2102.05829 

2. Causal Inference on Time Series using Restricted Structural Equation Models

3. https://cdn1.sph.harvard.edu/wp-content/uploads/sites/1268/2019/10/ci_hernanrobins_1oct19.pdf 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值