之前对于协方差一直不是非常理解,今天在做数据挖掘作业的时候又再次看到了协方差,所以就想着今天搞懂他。
当然,还是要请教李彦宏大师。
通过下文两篇文章,算是对协方差有了一个初步的,比较形象的了解了。
我们描述一个一维的数据,可以用数学期望值E(X)来表示数据的平均值,也可以用一个方差D(X)来表示数据的离散程度。
但如果涉及到二维的数据,我们如何描述它的离散程度呢?
当然,我们可以分别的对每一维数据进行方差计算,但是这样得出来的只是每一维数据的离散程度,能不能得到一个描述这两维之间的关系的数据呢?
当然可以,这就是协方差的由来了。
类似方差的计算公式,协方差的公式是通过对两维的向量的对应项求他们与各自均值之差的积(可能有点绕口,但是公式在链接中有了),在对每一项的积进行求和,来表示这两维向量之间的关系的。
如果得到的结果为正,则表示他们之间同增同减,即正相关;如果得到的结果为负,那么表示他们之间增减各异,为负相关; 而如果得到的结果为0,表明他们之间其中一维的增减对另一维数据没有影响,不相关。
以上是二维数据的协方差。那如果要表示多维数据的呢?对了,就是通过对每两维数据进行协方差的计算来表示(为什么我一开始想到的是对这多维数据的对应项求其与各自均值之差的积的和。。。)。那么就很自然的要用一个矩阵的形式来表示了。每一个项的横坐标与纵坐标对应要求的两维的协方差。(很懒,也不放图了)。而矩阵的对角线上的元素就是对应的横坐标(或者纵坐标)对应的向量的方差了。
(话说怎么插入公式啊,自己手打公式好难看。。。完)