协方差和协方差矩阵的定义和理解

先复习一下这个:
均值、标准差、方差

为什么需要协方差?

上面几个统计量看似已经描述的差不多了,但我们应该注意到,标准差和方差一般是用来描述一维数据的,但现实生活我们常常遇到含有多维数据的数据集,最简单的大家上学时免不了要统计多个学科的考试成绩。面对这样的数据集,我们当然可以按照每一维独立的计算其方差,协方差就是这样一种用来度量两个随机变量关系的统计量,我们可以仿照方差的定义:
v a r ( X ) = ∑ i = 1 n ( X i − X ‾ ) ( X i − X ‾ ) n − 1 var(X)=\frac{\sum_{i=1}^n(X_i-\overline X)(X_i-\overline X)}{n-1} var(X)=n1i=1n(XiX)(XiX)
来度量各个维度偏离其均值的程度,标准差可以这么来定义:
c o v ( X , Y ) = ∑ i = 1 n ( X i − X ‾ ) ( Y i − Y ‾ ) n − 1 cov(X,Y)=\frac{\sum_{i=1}^n(X_i-\overline X)(Y_i-\overline Y)}{n-1} cov(X,Y)=n1i=1n(XiX)(YiY)
协方差的结果有什么意义呢?如果结果为正值,则说明两者是正相关的(从协方差可以引出“相关系数”的定义),如果为0,也是就是统计上说的“相互独立”。

从协方差的定义上我们也可以看出一些显而易见的性质,如:

  1. c o v ( X , X ) = v a r ( X ) cov(X,X)=var(X) cov(X,X)=var(X)
  2. c o v ( X , Y ) = c o v ( Y , X ) cov(X,Y)=cov(Y,X) cov(X,Y)=cov(Y,X)

协方差多了就是协方差矩阵

那维数多了自然就需要计算多个协方差,比如n维的数据集就需要计算 n ( n − 1 ) 2 \frac{n(n-1)}{2} 2n(n1)个协方差,那自然而然的我们会想到使用矩阵来组织这些数据。给出协方差矩阵的定义:
C n × n = ( c i , j , c i , j = c o v ( D i m i , D i m j ) ) C_{n\times n}=(c_{i,j},c_{i,j}=cov(Dim_i,Dim_j)) Cn×n=(ci,j,ci,j=cov(Dimi,Dimj))

这个定义还是很容易理解的,我们可以举一个简单的三维的例子,假设数据集有 { x , y , z } \{x,y,z\} {x,y,z}三个维度,则协方差矩阵为
在这里插入图片描述

可见,协方差矩阵是一个对称的矩阵,而且对角线是各个维度上的方差。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

老实人小李

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值