先复习一下这个:
均值、标准差、方差
为什么需要协方差?
上面几个统计量看似已经描述的差不多了,但我们应该注意到,标准差和方差一般是用来描述一维数据的,但现实生活我们常常遇到含有多维数据的数据集,最简单的大家上学时免不了要统计多个学科的考试成绩。面对这样的数据集,我们当然可以按照每一维独立的计算其方差,协方差就是这样一种用来度量两个随机变量关系的统计量,我们可以仿照方差的定义:
v
a
r
(
X
)
=
∑
i
=
1
n
(
X
i
−
X
‾
)
(
X
i
−
X
‾
)
n
−
1
var(X)=\frac{\sum_{i=1}^n(X_i-\overline X)(X_i-\overline X)}{n-1}
var(X)=n−1∑i=1n(Xi−X)(Xi−X)
来度量各个维度偏离其均值的程度,标准差可以这么来定义:
c
o
v
(
X
,
Y
)
=
∑
i
=
1
n
(
X
i
−
X
‾
)
(
Y
i
−
Y
‾
)
n
−
1
cov(X,Y)=\frac{\sum_{i=1}^n(X_i-\overline X)(Y_i-\overline Y)}{n-1}
cov(X,Y)=n−1∑i=1n(Xi−X)(Yi−Y)
协方差的结果有什么意义呢?如果结果为正值,则说明两者是正相关的(从协方差可以引出“相关系数”的定义),如果为0,也是就是统计上说的“相互独立”。
从协方差的定义上我们也可以看出一些显而易见的性质,如:
- c o v ( X , X ) = v a r ( X ) cov(X,X)=var(X) cov(X,X)=var(X)
- c o v ( X , Y ) = c o v ( Y , X ) cov(X,Y)=cov(Y,X) cov(X,Y)=cov(Y,X)
协方差多了就是协方差矩阵
那维数多了自然就需要计算多个协方差,比如n维的数据集就需要计算
n
(
n
−
1
)
2
\frac{n(n-1)}{2}
2n(n−1)个协方差,那自然而然的我们会想到使用矩阵来组织这些数据。给出协方差矩阵的定义:
C
n
×
n
=
(
c
i
,
j
,
c
i
,
j
=
c
o
v
(
D
i
m
i
,
D
i
m
j
)
)
C_{n\times n}=(c_{i,j},c_{i,j}=cov(Dim_i,Dim_j))
Cn×n=(ci,j,ci,j=cov(Dimi,Dimj))
这个定义还是很容易理解的,我们可以举一个简单的三维的例子,假设数据集有
{
x
,
y
,
z
}
\{x,y,z\}
{x,y,z}三个维度,则协方差矩阵为
可见,协方差矩阵是一个对称的矩阵,而且对角线是各个维度上的方差。