如何理解协方差矩阵(散布矩阵)

这学期开了模式识别的学习课程,经常提到概率论与数理统计的一个概念:协方差矩阵(在模式识别中又叫散布矩阵)。理解这个矩阵严格意义上来说其实不需要太多先导知识,我们只需要了解一些线性代数基本的概念。但是你如果不了解协方差矩阵,听模式识别的课程就会云里雾里(就像我一样)。

那么在学习协方差矩阵之前

首先你需要知道一些统计学的基本概念

1.均值:

在这里插入图片描述

2.样本标准差:

[公式]

均值很好理解,是描述样本集合中的中间点,是所有信息的平均。而标准差描述的是一种散布度,比如[0,10,11]和[6,7,8]的均值是一样的都是7,但是很明显[0,10,11]看起来会更加分散一点,这就是散布程度更大一点。

这里从我的角度提一嘴为什么样本标准差中的分母是 x − 1 x-1 x1 。我们知道 x ˉ \bar{x} xˉ是样本中的均值,均值反映的信息和样本整体有关,也就是和样本中的每个值都有关系,因此其实我们可以把均值理解为包含样本中n种信息,而 x i x_i xi这个值本身表示样本中的一个信息(这个应该很好理解),那么 x i − x ˉ x_i - \bar{x} xixˉ就可以理解为包含 n − 1 n-1 n1 种信息,那么对于方差来说,这就达到了估计的目的,这也被称为样本的无偏估计。而如果分母为 n n n 的话,很明显就变成了样本的有偏估计。

这个理解方式的启发其实是机器学习中的卷积层,卷积层这一层的作用就是将图像信息压缩:图像经过卷积以后,虽然经过降维,但是图像包含的信息仍然是原有经过降维处理后信息。

下面对于协方差的理解引用了部分其他博主的理解,我觉得理解起来相对会轻松一点

协方差可以说是在标准差的基础上延申出来的,我们面对多维数据,无法用一个固定的值描述样本的离散程度,协方差就是度量两个随机变量关系的统计量

首先我们看方差的定义:
在这里插入图片描述

这是度量单维度偏离均值程度的式子,接着就是协方差:

[公式]

可以看出来,协方差矩阵可以写成对于每一维来说的方差,只不过是以矩阵形式写出来的方差,举一个三维的最简单的例子

[公式]

从这个例子可以看出来,首先 cov ⁡ ( x ) \operatorname{cov}(x) cov(x) 代表在 x x x 变量中的方差,可以看作是 var ⁡ ( X ) = ∑ i = 1 n ( X i − X ˉ ) ∗ ( X i − X ˉ ) n − 1 \operatorname{var}(X)=\frac{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right) *\left(X_{i}-\bar{X}\right)}{n-1} var(X)=n1i=1n(XiXˉ)(XiXˉ)单独的样本方差,而更重要的是 cov ⁡ ( x , y ) \operatorname{cov}(x,y) cov(x,y) 表示 cov ⁡ ( X , Y ) = ∑ i = 1 n ( X i − X ˉ ) ∗ ( Y i − Y ˉ ) n − 1 \operatorname{cov}(X, Y)=\frac{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right) *\left(Y_{i}-\bar{Y}\right)}{n-1} cov(X,Y)=n1i=1n(XiXˉ)(YiYˉ),这样以此类推。从这种定义角度可以发现,这就是多维变量之间的完全图关系,而这种关系从某种意义上来说就是他们的互相之间的离散程度,但更准确的说是相关系数。如果这种结果为正值就说明他们是正相关的,结果为负值说明他们之间是负相关的。

在这里,也给出协方差矩阵的计算方式:先让样本矩阵中心化,即每一维度减去该维度的均值得到矩阵 X X X ,使每一维度上的均值为0,直接用矩阵 X X X 乘上它的转置 X T X^T XT ,然后除以 n − 1 n-1 n1 即可。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值