由时间序列建立图模型,首先要检验顶点表示的变量(或序列)之间的各种相依联系,即对时间序列做独立性检验。
目前信息论中的熵度量方法由于能够捕捉时间序列中的相依联系,且不需要对数据产生过程进行严格的参数假设,因此成为研究热点。
1.Shannon熵和互信息
设连续型随机变量
X
\mathbf{X}
X,,其概率密度函数为
f
X
(
x
)
f_{X}(x)
fX(x),Shannon定义连续型随机变量的熵为
H
(
X
)
=
−
∫
[
ln
f
X
(
x
)
]
f
X
(
x
)
d
x
H(X) = -\int \left [ \ln{f_{X}(x) } \right ]f_{X}(x)d_{x}
H(X)=−∫[lnfX(x)]fX(x)dx
此概念可以推广到多个连续型随机变量的情况,以两个随机变量
X
\mathbf{X}
X和
Y
\mathbf{Y}
Y的情况为例,设其概率密度函数分别为
f
X
(
x
)
f_{X}(x)
fX(x)和
f
Y
(
y
)
f_{Y}(y)
fY(y),联合概率密度函数为
f
X
,
Y
(
x
,
y
)
f_{X,Y}(x,y)
fX,Y(x,y),条件概率密度函数分别为
f
X
∣
Y
(
x
∣
y
)
f_{X|Y}(x|y)
fX∣Y(x∣y)和
f
Y
∣
X
(
y
∣
x
)
f_{Y|X}(y|x)
fY∣X(y∣x),则
X
\mathbf{X}
X和
Y
\mathbf{Y}
Y的联合熵定义为
H
(
X
,
Y
)
=
−
∬
[
ln
f
X
,
Y
(
x
,
y
)
]
f
X
,
Y
(
x
,
y
)
d
x
d
y
H(X,Y)=-\iint [\ln{f_{X,Y}(x,y)}]f_{X,Y}(x,y)d_{x}d_{y}
H(X,Y)=−∬[lnfX,Y(x,y)]fX,Y(x,y)dxdy
X
\mathbf{X}
X和
Y
\mathbf{Y}
Y的条件熵定义为
H
(
X
∣
Y
)
=
−
∬
[
ln
f
X
∣
Y
(
x
∣
y
)
]
f
X
,
Y
(
x
,
y
)
d
x
d
y
H(X|Y)=-\iint [\ln{f_{X|Y}(x|y)}]f_{X,Y}(x,y)d_{x}d_{y}
H(X∣Y)=−∬[lnfX∣Y(x∣y)]fX,Y(x,y)dxdy
容易推出
H
(
X
,
Y
)
=
H
(
X
)
+
H
(
Y
∣
X
)
=
H
(
Y
)
+
H
(
X
∣
Y
)
H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)
H(X,Y)=H(X)+H(Y∣X)=H(Y)+H(X∣Y)
随机变量
X
\mathbf{X}
X和
Y
\mathbf{Y}
Y的互信息为
I
(
X
;
Y
)
=
∬
[
ln
f
X
,
Y
(
x
,
y
)
f
X
(
x
)
f
Y
(
y
)
]
f
X
,
Y
(
x
,
y
)
d
x
d
y
I(X;Y)=\iint[\ln{\frac{f_{X,Y}(x,y)}{f_{X}(x)f_{Y}(y)}}]f_{X,Y}(x,y)d_{x}d_{y}
I(X;Y)=∬[lnfX(x)fY(y)fX,Y(x,y)]fX,Y(x,y)dxdy
随机变量的互信息表示了随机变量之间相互提供的信息量,故有
I
(
X
;
Y
)
=
I
(
Y
;
X
)
I(X;Y)=I(Y;X)
I(X;Y)=I(Y;X)
互信息还可以表示随机变量间的统计依存程度。
由前式可以推出
I
(
X
;
Y
)
=
H
(
X
)
−
H
(
X
∣
Y
)
=
H
(
X
)
+
H
(
Y
)
−
H
(
X
,
Y
)
I(X;Y)=H(X)-H(X|Y)=H(X)+H(Y)-H(X,Y)
I(X;Y)=H(X)−H(X∣Y)=H(X)+H(Y)−H(X,Y)
当随机变量
X
\mathbf{X}
X和
Y
\mathbf{Y}
Y相互独立时,有
f
X
,
Y
(
x
,
y
)
f_{X,Y}(x,y)
fX,Y(x,y)=
f
X
(
x
)
f
Y
(
y
)
f_{X}(x)f_{Y}(y)
fX(x)fY(y),于是
H
(
X
,
Y
)
=
H
(
X
)
+
H
(
Y
)
H(X,Y)=H(X)+H(Y)
H(X,Y)=H(X)+H(Y)以及
I
(
X
;
Y
)
=
0
I(X;Y)=0
I(X;Y)=0
2.两组多维随机向量之间的互信息和条件互信息
考虑随机变量
X
\mathbf{X}
X和二维随机向量
(
Y
,
Z
)
(\mathbf{Y,Z})
(Y,Z)之间的互信息,设这三个随机变量的概率密度函数分别为
f
X
(
x
)
f_{X}(x)
fX(x),
f
Y
(
y
)
f_{Y}(y)
fY(y),
f
Z
(
z
)
f_{Z}(z)
fZ(z)。则
X
\mathbf{X}
X和二维随机向量
(
Y
,
Z
)
(\mathbf{Y,Z})
(Y,Z)之间的互信息为
I
(
X
;
Y
,
Z
)
=
H
(
X
)
−
H
(
X
∣
Y
,
Z
)
=
H
(
Y
,
Z
)
−
H
(
Y
,
Z
∣
X
)
I(X;Y,Z)=H(X)-H(X|Y,Z)=H(Y,Z)-H(Y,Z|X)
I(X;Y,Z)=H(X)−H(X∣Y,Z)=H(Y,Z)−H(Y,Z∣X)以及
I
(
X
;
Y
,
Z
)
=
H
(
X
)
+
H
(
Y
,
Z
)
−
H
(
X
,
Y
,
Z
)
I(X;Y,Z)=H(X)+H(Y,Z)-H(X,Y,Z)
I(X;Y,Z)=H(X)+H(Y,Z)−H(X,Y,Z)
联合互信息
I
(
X
;
Y
,
Z
)
I(X;Y,Z)
I(X;Y,Z)表示随机变量
X
\mathbf{X}
X和二维随机向量
(
Y
,
Z
)
(\mathbf{Y,Z})
(Y,Z)之间相互可能提供的信息量,即表示随机变量
X
\mathbf{X}
X和二维随机向量
(
Y
,
Z
)
(\mathbf{Y,Z})
(Y,Z)之间统计依存程度。
在已知随机变量
Z
Z
Z的条件下,随机变量
X
X
X和
Y
Y
Y之间的条件互信息定义为
I
(
X
;
Y
∣
Z
)
=
∭
[
ln
f
X
,
Y
∣
Z
(
x
,
y
∣
z
)
f
X
∣
Z
(
x
∣
z
)
f
Y
∣
Z
(
y
∣
z
)
]
f
X
,
Y
,
Z
(
x
,
y
,
z
)
d
x
d
y
d
z
I(X;Y|Z)=\iiint[\ln{\frac{f_{X,Y|Z}(x,y|z)}{f_{X|Z}(x|z)f_{Y|Z}(y|z)}]f_{X,Y,Z}(x,y,z)d_{x}d_{y}d_{z} }
I(X;Y∣Z)=∭[lnfX∣Z(x∣z)fY∣Z(y∣z)fX,Y∣Z(x,y∣z)]fX,Y,Z(x,y,z)dxdydz
则:
I
(
X
;
Y
∣
Z
)
=
H
(
X
∣
Z
)
−
H
(
X
∣
Y
,
Z
)
=
H
(
Y
∣
Z
)
−
H
(
Y
∣
X
,
Z
)
=
H
(
X
∣
Z
)
+
H
(
Y
∣
Z
)
−
H
(
X
,
Y
∣
Z
)
=
H
(
X
,
Z
)
+
H
(
Y
,
Z
)
−
H
(
X
,
Y
,
Z
)
=
H
(
X
,
Z
)
+
H
(
Y
,
Z
)
−
H
(
X
,
Y
,
Z
)
−
H
(
Z
)
I(X;Y|Z)=H(X|Z)-H(X|Y,Z) =H(Y|Z)-H(Y|X,Z) =H(X|Z)+H(Y|Z)-H(X,Y|Z) =H(X,Z)+H(Y,Z)-H(X,Y,Z) =H(X,Z)+H(Y,Z)-H(X,Y,Z)-H(Z)
I(X;Y∣Z)=H(X∣Z)−H(X∣Y,Z)=H(Y∣Z)−H(Y∣X,Z)=H(X∣Z)+H(Y∣Z)−H(X,Y∣Z)=H(X,Z)+H(Y,Z)−H(X,Y,Z)=H(X,Z)+H(Y,Z)−H(X,Y,Z)−H(Z)
可以证明,条件互信息是非负的。
利用条件互信息把联合互信息做如下展开:
I
(
X
;
Y
∣
Z
)
=
H
(
X
∣
Z
)
−
H
(
X
∣
Y
,
Z
)
=
H
(
X
)
−
H
(
X
∣
Y
)
+
H
(
X
∣
Y
)
−
H
(
X
∣
Y
,
Z
)
=
I
(
X
;
Y
)
+
I
(
X
;
Z
∣
Y
)
I(X;Y|Z)=H(X|Z)-H(X|Y,Z) =H(X)-H(X|Y)+H(X|Y)-H(X|Y,Z) =I(X;Y)+I(X;Z|Y)
I(X;Y∣Z)=H(X∣Z)−H(X∣Y,Z)=H(X)−H(X∣Y)+H(X∣Y)−H(X∣Y,Z)=I(X;Y)+I(X;Z∣Y)
表示二维随机向量
(
Y
,
Z
)
(\mathbf{Y,Z})
(Y,Z)所提供的关于随机变量
X
\mathbf{X}
X的信息量等于随机变量
Y
\mathbf{Y}
Y所提供的关于
X
\mathbf{X}
X的信息量加上在已知
Y
\mathbf{Y}
Y的条件下随机变量
Z
\mathbf{Z}
Z所提供的关于
X
\mathbf{X}
X的信息量。
在给定随机变量
Z
\mathbf{Z}
Z的条件下,当随机变量
X
\mathbf{X}
X和
Y
\mathbf{Y}
Y条件独立是,有
f
X
,
Y
∣
Z
(
x
,
y
∣
z
)
=
f
X
∣
Z
(
x
∣
z
)
f
Y
∣
Z
(
y
∣
z
)
f_{X,Y|Z}(x,y|z)=f_{X|Z}(x|z)f_{Y|Z}(y|z)
fX,Y∣Z(x,y∣z)=fX∣Z(x∣z)fY∣Z(y∣z),所以,
I
(
X
;
Y
∣
Z
)
=
0
I(X;Y|Z)=0
I(X;Y∣Z)=0。
3.广义熵,广义互信息和广义条件互信息
Renyi熵可以得到一个更广义的度量。设随机变量
X
\mathbf{X}
X,其概率密度函数为
f
X
(
x
)
f_{X}(x)
fX(x),则
X
\mathbf{X}
X的q阶Renyi熵定义为:
H
q
(
X
)
=
−
1
q
−
1
ln
∫
[
f
X
(
x
)
]
q
−
1
f
X
(
x
)
d
x
H_{q}(X)=-\frac{1}{q-1}\ln{\int[f_{X}(x)]^{q-1}}f_{X}(x)d_{x}
Hq(X)=−q−11ln∫[fX(x)]q−1fX(x)dx
当
q
→
1
q\to 1
q→1时,就是Shannon熵。
随机变量
X
\mathbf{X}
X和
Y
\mathbf{Y}
Y的q阶互信息定义为
I
q
(
X
;
Y
)
=
H
q
(
X
)
+
H
q
(
Y
)
−
H
q
(
X
,
Y
)
=
−
1
q
−
1
ln
∫
[
f
X
(
x
)
]
q
−
1
f
X
(
x
)
d
x
∫
[
f
Y
(
y
)
]
q
−
1
f
Y
(
y
)
d
y
∬
[
f
X
,
Y
(
x
,
y
)
]
q
−
1
f
X
,
Y
(
x
,
y
)
d
x
d
y
I_{q}(X;Y)=H_{q}(X)+H_{q}(Y)-H_{q}(X,Y) =-\frac{1}{q-1} \ln{\frac{\int[f_{X}(x)]^{q-1}f_{X}(x)d_{x}\int [f_{Y}(y)]^{q-1}f_{Y}(y)d_{y}}{\iint[f_{X,Y}(x,y)]^{q-1}f_{X,Y}(x,y)d_{x}d_{y} } }
Iq(X;Y)=Hq(X)+Hq(Y)−Hq(X,Y)=−q−11ln∬[fX,Y(x,y)]q−1fX,Y(x,y)dxdy∫[fX(x)]q−1fX(x)dx∫[fY(y)]q−1fY(y)dy
q阶条件互信息用于度量给定
Z
\mathbf{Z}
Z中包含的关于
X
\mathbf{X}
X的信息的条件下,
Y
\mathbf{Y}
Y中包含的关于
X
\mathbf{X}
X的信息。
I
q
(
X
;
Y
∣
Z
)
=
I
q
(
X
;
Y
,
Z
)
−
I
q
(
X
;
Z
)
=
−
H
q
(
X
,
Y
,
Z
)
+
H
q
(
X
,
Z
)
+
H
q
(
Y
,
Z
)
−
H
q
(
Z
)
=
−
1
q
−
1
ln
∬
[
f
X
,
Z
(
x
,
z
)
]
q
−
1
f
X
,
Z
(
x
,
z
)
d
x
d
z
∬
[
f
Y
,
Z
(
y
,
Z
)
]
q
−
1
f
Y
,
Z
(
y
,
z
)
d
y
d
z
∭
[
f
X
,
Y
,
Z
(
x
,
y
,
z
)
]
q
−
1
f
X
,
Y
,
Z
(
x
,
y
,
z
)
d
x
d
y
d
z
∫
[
f
Z
(
z
)
]
q
−
1
f
Z
(
z
)
d
z
I_{q}(X;Y|Z)=I_{q}(X;Y,Z)-I_{q}(X;Z)=-H_{q}(X,Y,Z)+H_{q}(X,Z)+H_{q}(Y,Z)-H_{q}(Z)=-\frac{1}{q-1}\ln{\frac{\iint[f_{X,Z}(x,z)]^{q-1}f_{X,Z}(x,z)d_{x}d_{z}\iint [f_{Y,Z}(y,Z)]^{q-1}f_{Y,Z}(y,z)d_{y}d_{z}}{\iiint [f_{X,Y,Z}(x,y,z)]^{q-1}f_{X,Y,Z}(x,y,z)d_{x}d_{y}d_{z}\int [f_{Z}(z)]^{q-1}f_{Z}(z)d_{z} } }
Iq(X;Y∣Z)=Iq(X;Y,Z)−Iq(X;Z)=−Hq(X,Y,Z)+Hq(X,Z)+Hq(Y,Z)−Hq(Z)=−q−11ln∭[fX,Y,Z(x,y,z)]q−1fX,Y,Z(x,y,z)dxdydz∫[fZ(z)]q−1fZ(z)dz∬[fX,Z(x,z)]q−1fX,Z(x,z)dxdz∬[fY,Z(y,Z)]q−1fY,Z(y,z)dydz
4.线性熵,线性互信息和线性条件互信息
设
X
=
(
X
1
,
X
2
,
.
.
.
,
X
n
)
X=(X_{1},X_{2},...,X_{n})
X=(X1,X2,...,Xn)是均值向量为0,协方差矩阵为
Σ
\Sigma
Σ的n维高斯分布向量,其概率密度函数为:
f
(
x
)
=
∣
W
∣
1
2
(
2
π
)
2
n
e
x
p
(
−
1
/
2
∑
i
,
j
=
1
n
W
i
,
j
x
i
y
j
)
f(x)=\frac{|W|^{\frac{1}{2}}}{(2\pi)^{\frac{2}{n}}}exp(-1/2\sum_{i,j=1}^{n}W_{i,j}x_{i}y_{j})
f(x)=(2π)n2∣W∣21exp(−1/2i,j=1∑nWi,jxiyj)
式中,
W
=
Σ
−
1
W=\Sigma ^{-1}
W=Σ−1,
∣
W
∣
|W|
∣W∣为矩阵
W
W
W的行列式。
可以推出,线性Shann熵为
H
1
l
(
X
)
=
ln
[
(
2
π
)
1
/
2
∣
W
∣
1
2
]
+
1
2
∫
(
∑
i
,
j
=
1
n
W
i
j
x
i
x
j
)
f
(
x
)
d
x
=
n
2
ln
(
2
π
)
+
1
2
ln
∣
Σ
∣
H_{1}^{l}(X)=\ln{[\frac{(2\pi)^{1/2}}{|W|^{\frac{1}{2}}}]}+\frac{1}{2}\int (\sum_{i,j=1}^{n}W_{ij}x_{i}x_{j})f(x)d_{x}=\frac{n}{2}\ln{(2\pi)}+ \frac{1}{2}\ln{|\Sigma |}
H1l(X)=ln[∣W∣21(2π)1/2]+21∫(i,j=1∑nWijxixj)f(x)dx=2nln(2π)+21ln∣Σ∣
定义q阶广义线性熵
H
q
l
(
X
)
=
1
1
−
q
ln
[
∣
W
∣
q
2
(
2
π
)
q
n
/
2
∫
e
x
p
(
−
q
2
∑
i
,
j
=
1
n
W
i
j
x
i
x
j
)
d
x
]
H_{q}^{l}(X)=\frac{1}{1-q} \ln{[\frac{|W|^{\frac{q}{2}}}{(2\pi)^{qn/2}}}\int exp(-\frac{q}{2}\sum_{i,j=1}^{n}W_{ij}x_{i}x_{j})d_{x}]
Hql(X)=1−q1ln[(2π)qn/2∣W∣2q∫exp(−2qi,j=1∑nWijxixj)dx]
利用
∣
q
W
∣
=
q
n
∣
W
∣
|qW|=q^{n}|W|
∣qW∣=qn∣W∣可得:
H
q
l
(
X
)
=
1
1
−
q
ln
[
∣
W
∣
q
−
1
2
(
2
π
)
(
q
−
1
)
n
/
2
]
=
n
2
ln
(
2
π
)
+
1
2
ln
∣
Σ
∣
+
n
ln
q
2
(
q
−
1
)
H_{q}^{l}(X)=\frac{1}{1-q} \ln{[\frac{|W|^{\frac{q-1}{2}}}{(2\pi)^{(q-1)n/2}}}]=\frac{n}{2}\ln{(2\pi)}+ \frac{1}{2}\ln{|\Sigma |}+\frac{n\ln{q}}{2(q-1)}
Hql(X)=1−q1ln[(2π)(q−1)n/2∣W∣2q−1]=2nln(2π)+21ln∣Σ∣+2(q−1)nlnq
随机变量
X
\mathbf{X}
X和
Y
\mathbf{Y}
Y的q阶线性互信息
I
l
(
X
;
Y
)
I^{l}(X;Y)
Il(X;Y)定义为:
I
q
l
(
X
;
Y
)
=
H
q
l
(
X
)
+
H
q
l
(
Y
)
−
H
q
l
(
X
,
Y
)
I_{q}^{l}(X;Y)=H_{q}^{l}(X)+H_{q}^{l}(Y)-H_{q}^{l}(X,Y)
Iql(X;Y)=Hql(X)+Hql(Y)−Hql(X,Y)
在已知随机变量
Z
\mathbf{Z}
Z的条件下,
X
\mathbf{X}
X和
Y
\mathbf{Y}
Y之间的q阶线性条件互信息
I
l
(
X
;
Y
∣
Z
)
I^{l}(X;Y|Z)
Il(X;Y∣Z)定义为:
I
q
l
(
X
;
Y
∣
Z
)
=
H
q
l
(
X
,
Z
)
+
H
q
l
(
Y
,
Z
)
−
H
q
l
(
X
,
Y
,
Z
)
−
H
q
l
(
Z
)
=
1
2
ln
∣
Σ
X
Z
∣
∣
Σ
Y
Z
∣
∣
Σ
X
Y
Z
∣
∣
Σ
Z
∣
I_{q}^{l}(X;Y|Z)=H_{q}^{l}(X,Z)+H_{q}^{l}(Y,Z)-H_{q}^{l}(X,Y,Z)-H_{q}^{l}(Z)=\frac{1}{2}\ln{\frac{|\Sigma _{XZ}||\Sigma _{YZ}|}{|\Sigma _{XYZ}||\Sigma _{Z}|} }
Iql(X;Y∣Z)=Hql(X,Z)+Hql(Y,Z)−Hql(X,Y,Z)−Hql(Z)=21ln∣ΣXYZ∣∣ΣZ∣∣ΣXZ∣∣ΣYZ∣
其中
∣
Σ
X
Y
Z
∣
|\Sigma _{XYZ}|
∣ΣXYZ∣,
∣
Σ
X
Z
∣
|\Sigma _{XZ}|
∣ΣXZ∣,
∣
Σ
Y
Z
∣
|\Sigma _{YZ}|
∣ΣYZ∣和
∣
Σ
Z
∣
|\Sigma _{Z}|
∣ΣZ∣分别表示
(
X
,
Y
,
Z
)
(X,Y,Z)
(X,Y,Z),
(
X
,
Z
)
(X,Z)
(X,Z),
(
Y
,
Z
)
(Y,Z)
(Y,Z),
Z
Z
Z的协方差矩阵或方差。
根据定义,线性熵、线性互信息和线性条件互信息只能度量随机变量之间的线性相关关系。