协方差
通俗理解
可以通俗的理解为:两个变量在变化过程中是同方向变化还是反方向变化?同向或反向程度如何? “你变大,同时我也变大,说明两个变量是同向变化的,这时协方差就是正的,表示正相关。
你变大,同时我变小,说明两个变量是反向变化的,这时协方差就是负的,表示负相关。
如果为0,则两者之间没有关系,猥琐不猥琐和女孩子喜不喜欢之间没有关联,就是统计上说的“相互独立”。
例如:协方差就是俩人跳舞的舞步协同程度,如果一起向前走或者向后退,协方差就是正值;如果一个朝前一个朝后,协方差就是负值;如果各自都不动,就是零。
数值上理解
从数值来看,协方差的数值越大,这种同向/反向的关系的强度越强,协同性越明显。反之亦然。
例如:协方差小,说明两种投资方式间风险变动的影响关系不大。这样的投资组合可以将非系统性风险(由某一特殊的因素引起,与整个证券市场的价格不存在系统的全面联系,而只对个别或少数证券的收益产生影响的风险)降低甚至消除。”
与均值、方差、标准差的比较
统计学里最基本的概念就是样本的均值、方差、标准差。
标准差和方差一般是用来描述一维数据的,但现实生活中我们常常会遇到含有多维数据的数据集,最简单的是大家上学时免不了要统计多个学科的考试成绩。面对这样的数据集,我们当然可以按照每一维独立的计算其方差,但是通常我们还想了解更多,比如,一个男孩子的猥琐程度跟他受女孩子的欢迎程度是否存在一些联系。
协方差就是这样一种用来度量两个随机变量关系的统计量。
我们可以仿照方差的定义,来度量各个维度偏离其均值的程度,协方差。
协方差矩阵
将协方差拓展到n维就成了协方差矩阵。
前面提到的猥琐和受欢迎的问题是典型的二维问题,而协方差也只能处理二维问题,那维数多了自然就需要计算多个协方差,比如n维的数据集就需要计算【n!/((n-2)!*2)】个协方差,那自然而然我们会想到使用矩阵来组织这些数据。
例如数据集有三个维度,则协方差矩阵为3x3的矩阵。
协方差矩阵是一个对称的矩阵,而且对角线是各个维度的方差。
关键点是:理解协方差矩阵的关键就在于牢记它的计算是不同维度之间的协方差,而不是不同样本之间。
拿到一个样本矩阵(一般的样本矩阵是由若干数据组成,而每一个数据有n个维度,即n个特征),最先要明确的就是一行是一个样本还是一个维度。
公式
首先要清楚一般出现协方差矩阵时就会出现多维列向量,这里假设为n维,另外既然有协方差字眼,那肯定是一个随机变量。这里假设有d个随机变量x1,x2,x3,…,xd,只不过每个随机变量x又是由n个标量组成的列向量。简单的理解就是说在n维空间中有d个随机的点。现在我们需要求的是关于n维空间中这d个点的协方差矩阵。
用uk列向量表示d个点的平均值,uk中的每一个元素对应d个点中相应维数的平均数。所以协方差矩阵为n*n维的。其每个元素的计算公式如下:”
其数学含义是协方差矩阵的第i行第j列的元素表示为,d个随机变量点中的第i维和第j维的协方差。因为每一维的d个数都可以看做算是一维空间中的d个实数,因此它有自己的平均数和方差,每2维之间也就有协方差。
相关系数
相关系数就是标准化的协方差。
就是剔除了俩人舞步尺度大小不一的影响。