多维时间序列图模型涉及时间序列之间复杂的直接和间接相依联系,因此成对的独立性检验不能满足要求,用于度量条件独立性更合适的统计量是条件互信息。
本节主要介绍检验非线性时间序列相依联系的条件互信息统计量及其性质。
前面主要介绍理论,具体方法直接下拉到最后。
1.非线性时间序列相依联系的条件互信息检验方法
要建立观测数据的图模型,一个重要步骤是检验图中的边所表示的独立性。要利用时间序列图模型对数据进行分析,需要先建立当前变量
X
t
X_{t}
Xt对滞后变量
X
t
−
1
,
X
t
−
2
,
.
.
.
,
X
t
−
p
,
ε
t
−
1
,
ε
t
−
2
,
.
.
.
,
ε
t
−
q
X_{t-1},X_{t-2},...,X_{t-p},\varepsilon_{t-1},\varepsilon_{t-2},...,\varepsilon_{t-q}
Xt−1,Xt−2,...,Xt−p,εt−1,εt−2,...,εt−q的回归模型。因袭在时间序列分析中,变量的选择问题就是如何选择合适的滞后变量以引入模型。
基于Shannon熵构造的用于度量时间序列相依联系的互信息统计量需要对概率密度函数进行估计,计算过程比较繁琐。此处涉及的基于信息论方法的检验均假设出现的概率密度函数都是平方可积的,并且假设时间序列都是严平稳的,即任意有限维联合分布函数不随时间平移而改变。
2.广义条件互信息度量的性质和估计
考虑三个随机变量X、Y、Z之间的联系,以q阶条件互信息
I
q
(
X
;
Y
∣
Z
)
I_{q}(X;Y|Z)
Iq(X;Y∣Z)为例研究广义条件互信息度量的性质和估计。作为
I
q
(
X
;
Y
∣
Z
)
I_{q}(X;Y|Z)
Iq(X;Y∣Z)的特殊情形,容易推出这些性质对于互信息
I
(
X
,
Y
)
I(X,Y)
I(X,Y)也成立。
定理1
I
(
X
;
Y
∣
Z
)
=
∭
[
ln
f
X
,
Y
∣
Z
(
x
,
y
∣
z
)
f
X
∣
Z
(
x
∣
z
)
f
Y
∣
Z
(
y
∣
z
)
]
f
X
,
Y
,
Z
(
x
,
y
,
z
)
d
x
d
y
d
z
I(X;Y|Z)=\iiint[\ln{\frac{f_{X,Y|Z}(x,y|z)}{f_{X|Z}(x|z)f_{Y|Z}(y|z)}]f_{X,Y,Z}(x,y,z)d_{x}d_{y}d_{z} }
I(X;Y∣Z)=∭[lnfX∣Z(x∣z)fY∣Z(y∣z)fX,Y∣Z(x,y∣z)]fX,Y,Z(x,y,z)dxdydz满足性质
I
(
X
;
Y
∣
Z
)
=
0
I(X;Y|Z)=0
I(X;Y∣Z)=0当且仅当在给定Z的条件下随机变量X和Y是条件独立的。
定理2 q阶条件互信息
I
q
(
X
;
Y
∣
Z
)
I_{q}(X;Y|Z)
Iq(X;Y∣Z)在连续可导的一一映射下是不变的。
证明,假设一一变换
h
1
,
h
2
,
h
3
h_{1},h_{2},h_{3}
h1,h2,h3连续可导。令
X
∗
=
h
1
(
X
)
,
Y
∗
=
h
2
(
Y
)
,
Z
∗
=
h
3
(
Z
)
X^{*}=h_{1}(X),Y^{*}=h_{2}(Y),Z^{*}=h_{3}(Z)
X∗=h1(X),Y∗=h2(Y),Z∗=h3(Z),用
g
,
g
13
,
g
23
,
g
3
g,g_{13},g_{23},g_{3}
g,g13,g23,g3分别表示
(
X
∗
,
Y
∗
,
Z
∗
)
(X^{*},Y^{*},Z^{*})
(X∗,Y∗,Z∗)的联合概率密度函数,
(
X
∗
,
Z
∗
)
(X^{*},Z^{*})
(X∗,Z∗)的边缘概率密度函数,
(
Y
∗
,
Z
∗
)
(Y^{*},Z^{*})
(Y∗,Z∗)的边缘概率密度函数和
Z
∗
Z^{*}
Z∗的概率密度函数。则:
定理3 设k维正态分布随机向量
X
=
(
X
1
,
X
2
,
.
.
.
,
X
k
)
X=(X_{1},X_{2},...,X_{k})
X=(X1,X2,...,Xk)的均值向量为
μ
\mu
μ,协方差矩阵为
Σ
\Sigma
Σ。令
W
=
Σ
−
1
,
τ
i
j
=
−
w
i
j
w
i
i
w
j
j
\boldsymbol{W}=\boldsymbol{\Sigma}^{-1}, \quad \tau_{i j}=-\frac{w_{i j}}{\sqrt{w_{i i} w_{j j}}}
W=Σ−1,τij=−wiiwjjwij,其中
w
i
i
,
w
j
j
,
w
i
j
w_{i i} ,w_{j j},w_{i j}
wii,wjj,wij是
W
W
W中的元素。则:
I
q
(
X
i
,
X
j
∣
X
\
{
X
i
,
X
j
}
)
=
−
1
2
ln
(
1
−
τ
i
j
2
)
I_{q}\left(X_{i}, X_{j} \mid \boldsymbol{X} \backslash\left\{X_{i}, X_{j}\right\}\right)=-\frac{1}{2} \ln \left(1-\tau_{i j}^{2}\right)
Iq(Xi,Xj∣X\{Xi,Xj})=−21ln(1−τij2)
由定理1可知,q=1阶条件互信息
I
(
X
;
Y
∣
Z
)
I(X;Y|Z)
I(X;Y∣Z)是条件独立性的一个无界的度量,这里定义互信息的一个变换
G
(
X
,
Y
)
=
1
−
e
x
p
{
−
I
(
X
;
Y
)
}
G(X,Y)=1-exp\left \{ -I(X;Y) \right \}
G(X,Y)=1−exp{−I(X;Y)}.同理,定义条件互信息统计量的一个变换
T
(
X
;
Y
∣
Z
)
=
1
−
e
x
p
{
−
I
(
X
;
Y
∣
Z
)
}
T(X;Y|Z)=1-exp\left \{ -I(X;Y|Z) \right \}
T(X;Y∣Z)=1−exp{−I(X;Y∣Z)}.
以下推导
G
(
X
,
Y
)
、
T
(
X
;
Y
∣
Z
)
G(X,Y)、T(X;Y|Z)
G(X,Y)、T(X;Y∣Z)的估计。
首先看随机向量关联积分的估计。m维随机向量
X
=
(
X
1
,
X
2
,
.
.
.
,
X
m
)
X=(X_{1},X_{2},...,X_{m})
X=(X1,X2,...,Xm)的2阶关联积分为
C
(
X
;
ε
)
=
∬
I
(
∥
s
−
t
∣
⩽
ε
)
f
X
(
s
)
f
X
(
t
)
d
s
d
t
C(\boldsymbol{X} ; \varepsilon)=\iint I_{(\| s-t \mid \leqslant \varepsilon)} f_{X}(\boldsymbol{s}) f_{X}(\boldsymbol{t}) \mathrm{d} \boldsymbol{s} \mathrm{d} \boldsymbol{t}
C(X;ε)=∬I(∥s−t∣⩽ε)fX(s)fX(t)dsdt
式中,
I
(
.
)
I(.)
I(.)表示取值为0或1的示性函数。
∥
X
∥
=
sup
i
=
1
,
2
,
.
.
,
m
∣
X
i
∣
\left \| X \right \|=\sup_{i=1,2,..,m}\left | X_{i} \right |
∥X∥=supi=1,2,..,m∣Xi∣,参数
ε
\varepsilon
ε为尺度参数。
示性函数的期望可以直接由U统计量进行估计,设得到X的n个观测样本,记为
x
(
1
)
,
x
(
2
)
,
.
.
.
,
x
(
n
)
x^{(1)},x^{(2)},...,x^{(n)}
x(1),x(2),...,x(n),则
C
^
(
X
;
ε
)
=
2
n
(
n
−
1
)
∑
i
=
1
n
−
1
∑
j
=
i
+
1
n
I
(
∥
x
(
i
)
−
x
(
j
)
∥
⩽
ε
)
\hat{C}(\boldsymbol{X} ; \varepsilon)=\frac{2}{n(n-1)} \sum_{i=1}^{n-1} \sum_{j=i+1}^{n} I_{\left(\left\|x^{(i)}-x^{(j)}\right\| \leqslant \varepsilon\right)}
C^(X;ε)=n(n−1)2i=1∑n−1j=i+1∑nI(∥x(i)−x(j)∥⩽ε)
接下来用关联积分估计随机变量的条件互信息,随机变量X的q=2阶Renyi熵为
H
2
(
X
)
=
−
ln
∫
f
X
2
(
x
)
d
x
H_{2}(X)=-\ln \int f_{X}^{2}(x) \mathrm{d} x
H2(X)=−ln∫fX2(x)dx.
随机变量X的q=2阶Renyi熵和关联积分
C
(
X
;
ε
)
C(\boldsymbol{X} ; \varepsilon)
C(X;ε)有如下联系,
H
2
(
X
)
≃
−
ln
C
(
X
;
ε
)
+
m
ln
ε
H_{2}(X)\simeq -\ln C(\boldsymbol{X} ; \varepsilon)+m\ln \varepsilon
H2(X)≃−lnC(X;ε)+mlnε
对于基于2阶互信息构造的统计量的估计,为方便起见,这里仍用
G
^
(
X
,
Y
)
、
T
^
(
X
;
Y
∣
Z
)
\hat{G} (X,Y)、\hat{T} (X;Y|Z)
G^(X,Y)、T^(X;Y∣Z)分别表示互信息和条件互信息的估计如下:
选择q=2阶条件互信息的优点是,对观测值计算Renyi熵的时候比较简单,可以用关联积分来进行计算。但问题在于,
I
2
(
X
;
Y
∣
Z
)
I_{2}(X;Y|Z)
I2(X;Y∣Z)可能是负的,且
I
2
(
X
;
Y
∣
Z
)
=
0
I_{2}(X;Y|Z)=0
I2(X;Y∣Z)=0不一定意味着在给定Z的条件下X和Y是条件独立的。实际上,
I
2
(
X
;
Y
∣
Z
)
I_{2}(X;Y|Z)
I2(X;Y∣Z)的行为和
I
1
(
X
;
Y
∣
Z
)
I_{1}(X;Y|Z)
I1(X;Y∣Z)的行为非常类似。数值模拟结果也验证了在检验条件独立性时,基于
I
2
(
X
;
Y
∣
Z
)
I_{2}(X;Y|Z)
I2(X;Y∣Z)构造的统计量和基于
I
1
(
X
;
Y
∣
Z
)
I_{1}(X;Y|Z)
I1(X;Y∣Z)构造的统计量具有相同的结果。
3.非线性时间序列相依联系的条件互信息检验
设得到严平稳时间序列
{
X
t
,
t
∈
Z
}
\left \{ X_{t},t\in Z \right \}
{Xt,t∈Z}的n个观测值
{
x
t
}
t
=
1
n
\left \{ x_{t} \right \}_{t=1}^{n}
{xt}t=1n,定义M维延迟向量
X
t
M
=
(
X
t
−
1
,
X
t
−
2
,
.
.
.
,
X
t
−
M
)
X_{t}^{M}=(X_{t-1},X_{t-2},...,X_{t-M})
XtM=(Xt−1,Xt−2,...,Xt−M),其中M为事先确定的正整数。
令
X
t
−
j
=
(
X
t
−
1
,
X
t
−
2
,
.
.
,
X
t
−
j
+
1
,
X
t
−
j
−
1
,
.
,
X
t
−
M
)
X_{t}^{-j}=(X_{t-1},X_{t-2},..,X_{t-j+1},X_{t-j-1},.,X_{t-M})
Xt−j=(Xt−1,Xt−2,..,Xt−j+1,Xt−j−1,.,Xt−M)表示
X
t
M
X_{t}^{M}
XtM中除
X
t
−
j
X_{t-j}
Xt−j外所有的其他变量组成的向量,检验在
X
t
−
j
X_{t}^{-j}
Xt−j的条件下,
X
t
X_{t}
Xt和
X
t
−
j
X_{t-j}
Xt−j的条件独立性的原假设和备择假设如下:
H
0
H_{0}
H0:在给定
X
t
−
j
X_{t}^{-j}
Xt−j的条件下,
X
t
X_{t}
Xt和
X
t
−
j
X_{t-j}
Xt−j是条件独立的。
H
1
H_{1}
H1:在给定
X
t
−
j
X_{t}^{-j}
Xt−j的条件下,
X
t
X_{t}
Xt和
X
t
−
j
X_{t-j}
Xt−j是条件相依的。
由定理1可知,
X
t
X_{t}
Xt和
X
t
−
j
X_{t-j}
Xt−j之间条件独立性的度量为
T
j
(
X
t
;
X
t
−
j
∣
X
t
−
j
)
=
1
−
e
x
p
{
−
I
(
X
t
;
X
t
−
j
∣
X
t
−
j
)
}
T_{j}(X_{t};X_{t-j}|X_{t}^{-j})=1-exp\left \{ -I(X_{t};X_{t-j}|X_{t}^{-j}) \right \}
Tj(Xt;Xt−j∣Xt−j)=1−exp{−I(Xt;Xt−j∣Xt−j)}利用
T
j
(
X
t
;
X
t
−
j
∣
X
t
−
j
)
T_{j}(X_{t};X_{t-j}|X_{t}^{-j})
Tj(Xt;Xt−j∣Xt−j) 作为条件独立性度量可以捕捉在给定时间序列中间值条件下的相依联系,同时提供时间序列相依联系的滞后阶数信息。
用2阶关联积分估计
T
j
(
X
t
;
X
t
−
j
∣
X
t
−
j
)
T_{j}(X_{t};X_{t-j}|X_{t}^{-j})
Tj(Xt;Xt−j∣Xt−j),在给定
X
t
−
j
X_{t}^{-j}
Xt−j的条件下,
X
t
X_{t}
Xt和
X
t
−
j
X_{t-j}
Xt−j的互信息为
I
2
(
X
i
;
X
t
−
j
∣
X
t
−
j
)
=
H
2
(
X
i
,
X
t
−
j
,
X
t
−
j
)
+
H
2
(
X
t
,
X
t
−
j
)
−
H
2
(
X
t
−
j
,
X
t
−
j
)
−
H
2
(
X
t
−
j
)
\begin{aligned} I_{2}\left(X_{i} ; X_{t-j} \mid \boldsymbol{X}_{t}^{-j}\right)=& H_{2}\left(X_{i}, X_{t-j}, \boldsymbol{X}_{t}^{-j}\right)+H_{2}\left(X_{t}, \boldsymbol{X}_{t}^{-j}\right)-\\ & H_{2}\left(X_{t-j}, \boldsymbol{X}_{t}^{-j}\right)-H_{2}\left(\boldsymbol{X}_{t}^{-j}\right) \end{aligned}
I2(Xi;Xt−j∣Xt−j)=H2(Xi,Xt−j,Xt−j)+H2(Xt,Xt−j)−H2(Xt−j,Xt−j)−H2(Xt−j)
令
C
j
(
ε
)
,
C
3
j
(
ε
)
,
C
21
j
(
ε
)
,
C
22
j
(
ε
)
C_{}^{j}(\varepsilon),C_{3}^{j}(\varepsilon),C_{21}^{j}(\varepsilon),C_{22}^{j}(\varepsilon)
Cj(ε),C3j(ε),C21j(ε),C22j(ε)分别表示关联积分
C
(
X
t
−
j
;
ε
)
,
C
(
X
t
,
X
t
−
j
,
X
t
−
j
;
ε
)
,
C
(
X
t
,
X
t
−
j
;
ε
)
,
C
(
X
t
−
j
,
X
t
−
j
;
ε
)
C(X_{t}^{-j};\varepsilon),C(X_{t},X_{t-j},X_{t}^{-j};\varepsilon),C(X_{t},X_{t}^{-j};\varepsilon),C(X_{t-j},X_{t}^{-j};\varepsilon)
C(Xt−j;ε),C(Xt,Xt−j,Xt−j;ε),C(Xt,Xt−j;ε),C(Xt−j,Xt−j;ε)的简写形式,则
T
j
T_{j}
Tj的估计为
T
^
j
(
ε
)
=
1
−
C
^
21
j
(
ε
)
C
^
22
j
(
ε
)
C
^
3
j
(
ε
)
C
^
j
(
ε
)
\hat{T}_{j}(\varepsilon)=1-\frac{\hat{C}_{21}^{j}(\varepsilon) \hat{C}_{22}^{j}(\varepsilon)}{\hat{C}_{3}^{j}(\varepsilon) \hat{C}^{j}(\varepsilon)}
T^j(ε)=1−C^3j(ε)C^j(ε)C^21j(ε)C^22j(ε)
由U统计量的相合性可以得到
T
^
j
(
ε
)
\hat{T}_{j}(\varepsilon)
T^j(ε)的相合性。
定理4估计 T ^ j ( ε ) \hat{T}_{j}(\varepsilon) T^j(ε)是 T j T_{j} Tj的相合估计,即当 n ⟶ ∞ n\longrightarrow \infty n⟶∞时,有 T ^ j ( ε ) → p T j \hat{T}_{j}(\varepsilon)\overset{p}{\rightarrow} T_{j} T^j(ε)→pTj,其中 → p \overset{p}{\rightarrow} →p表示依概率收敛。
引理5 令 h : R m → R h:\mathbf{R}^{m}\to \mathbf{R} h:Rm→R为一个非退化的核函数,令 { X n , n ∈ Z } \left \{ X_{n},n\in Z\right \} {Xn,n∈Z}为一个严平稳随机过程,如果满足下面的条件之一,则 ( n / m σ n ) ( U n ( h ) − θ ) (n/m\sigma_{n})(U_{n}(h)-\theta) (n/mσn)(Un(h)−θ)的渐近分布为标准正态分布:
- ( X n ) n ≥ 1 (X_{n})_{n\ge 1} (Xn)n≥1在两个时间方向上是均匀混合的, σ n 2 → ∞ \sigma _{n}^{2}\to \infty σn2→∞,对于 α > 0 \alpha> 0 α>0,下式成立: sup 1 ⩽ t 1 < t 2 < ⋯ < m E [ ∣ h ( X t 1 , X t 2 , ⋯ , X t m ) ∣ 2 + α ] < ∞ \sup _{1 \leqslant t_{1}<t_{2}<\cdots<_{m}} E\left[\left|h\left(X_{t_{1}}, X_{t_{2}}, \cdots, X_{t_{m}}\right)\right|^{2+\alpha}\right]<\infty 1⩽t1<t2<⋯<msupE[∣h(Xt1,Xt2,⋯,Xtm)∣2+α]<∞
-
(
X
n
)
n
≥
1
(X_{n})_{n\ge 1}
(Xn)n≥1在两个时间方向上是均匀混合的,混合系数
φ
(
n
)
\varphi (n)
φ(n)满足以下条件:
∑
β
(
n
)
α
/
(
2
+
α
)
<
∞
\sum \beta(n)^{\alpha /(2+\alpha)}<\infty
∑β(n)α/(2+α)<∞且
sup
1
⩽
t
1
<
t
2
<
⋯
<
m
E
[
∣
h
(
X
t
1
,
X
t
2
,
⋯
,
X
t
m
)
∣
2
+
α
]
<
∞
\sup _{1 \leqslant t_{1}<t_{2}<\cdots<_{m}} E\left[\left|h\left(X_{t_{1}}, X_{t_{2}}, \cdots, X_{t_{m}}\right)\right|^{2+\alpha}\right]<\infty
1⩽t1<t2<⋯<msupE[∣h(Xt1,Xt2,⋯,Xtm)∣2+α]<∞
式中, θ = ∫ ⋯ ∫ h ( x 1 , x 2 , ⋯ , x m ) ∏ i = 1 m d F ( x i ) \theta=\int \cdots \int h\left(x_{1}, x_{2}, \cdots, x_{m}\right) \prod_{i=1}^{m} \mathrm{~d} F\left(x_{i}\right) θ=∫⋯∫h(x1,x2,⋯,xm)∏i=1m dF(xi), σ n 2 , σ 2 \sigma _{n}^{2},\sigma^{2} σn2,σ2表示 U n ( h ) U_{n}(h) Un(h)的分解中第1项的方差和渐进方差。
定理6 在独立同分布过程的原假设下,当样本量
n
→
∞
n\to \infty
n→∞时,
T
^
j
\hat{T}_{j}
T^j的渐进分布为
n
1
/
2
T
^
j
(
ε
)
→
d
N
(
0
,
σ
T
2
(
ε
)
)
n^{1 / 2} \hat{T}_{j}(\varepsilon) \overset{d}{\rightarrow} N\left(0, \sigma_{T}^{2}(\varepsilon)\right)
n1/2T^j(ε)→dN(0,σT2(ε))
式中,
→
d
\overset{d}{\rightarrow}
→d表示依分布收敛。
ε
\varepsilon
ε是固定的,在实际应用中要注意
ε
\varepsilon
ε的选择。估计的精度随
ε
\varepsilon
ε的减小而减小。一般选择
ε
=
0.5
σ
X
,
ε
=
1.0
σ
X
,
ε
=
1.5
σ
X
\varepsilon=0.5\sigma _{X},\varepsilon=1.0\sigma _{X} ,\varepsilon=1.5\sigma _{X}
ε=0.5σX,ε=1.0σX,ε=1.5σX.
σ
X
\sigma _{X}
σX是随机过程的标准差。
在给定
X
t
−
j
X_{t}^{-j}
Xt−j的条件下,检验
X
t
X_{t}
Xt和
X
t
−
j
X_{t-j}
Xt−j条件独立性的具体步骤如下:
1.对于选定的显著性水平和初始样本
{
x
t
}
t
=
1
n
\left \{ x_{t} \right \}_{t=1}^{n}
{xt}t=1n,首先根据估计的残差,衬衫独立同分布随机变量序列
{
x
~
t
}
t
=
1
n
\left \{ \tilde{x} _{t} \right \}_{t=1}^{n}
{x~t}t=1n,并计算统计量取值
T
j
(
X
t
;
X
t
−
j
∣
X
t
−
j
)
T_{j}(X_{t};X_{t-j}|X_{t}^{-j})
Tj(Xt;Xt−j∣Xt−j).
2.步骤1重复B次,得到B组初始样本,并分别计算统计量取值
T
~
j
1
,
T
~
j
2
,
.
.
.
,
T
~
j
B
\tilde{T}_{j}^{1},\tilde{T}_{j}^{2},...,\tilde{T}_{j}^{B}
T~j1,T~j2,...,T~jB.
3.利用经验分布
F
^
B
(
x
)
=
B
−
1
∑
l
=
1
B
I
(
T
~
j
l
≤
x
)
\hat{F}_{B}(x)=B^{-1}\sum_{l=1}^{B}I(\tilde{T}_{j}^{l}\le x)
F^B(x)=B−1∑l=1BI(T~jl≤x)作为
T
j
T_{j}
Tj在原假设成立下的分布的近似,计算临界值
C
a
C_{a}
Ca,即
F
^
B
(
x
)
\hat{F}_{B}(x)
F^B(x)的1-a分位数,其中,a为选定的显著性水平。
4.计算初始样本的统计量取值
T
^
j
(
X
t
;
X
t
−
j
∣
X
t
−
j
)
\hat{T}_{j}(X_{t};X_{t-j}|X_{t}^{-j})
T^j(Xt;Xt−j∣Xt−j)
5.如果
T
^
j
(
X
t
;
X
t
−
j
∣
X
t
−
j
)
>
C
a
\hat{T}_{j}(X_{t};X_{t-j}|X_{t}^{-j})>C_{a}
T^j(Xt;Xt−j∣Xt−j)>Ca,则拒绝
X
t
X_{t}
Xt和
X
t
−
j
X_{t-j}
Xt−j之间条件独立性的原假设。