DataFrame的应用
窗口计算
DataFrame对象的rolling方法允许将数据置于窗口中,我们可以使用函数对数据进行运算和处理
相关性判定
在统计学中,我们通常使用协方差来衡量两个随机变量的联合变化程度。如果变量 X 的较大值主要与另一个变量 Y 的较大值相对应,而两者的较小值也相对应,那么两个变量倾向于表现出相似的行为,协方差为正。
如果一个变量的较大值主要对应另一个变量的较小值,则两个变量倾向于表现出相反的行为,协方差为负
协方差的正负显示着两个两个变量的相关性,方差是协方差的一种特殊情况,即变量与自身的协方差。
如果X和Y是统一独立的,那么二者的协方差为0,因为在独立的情况下
在正态形式的协方差可以显示两变量线性关系的强弱。在统计学中,皮尔逊积矩相关系数就是正态形式的协方差,它用于度量两个变量X和Y之间的相关程度(线性相关),其值介于-1到1之间
估算样本的协方差和标准差,也可以得到样本的皮尔逊系数,通常用字母ρ
表示
判断指标间是正相关、负相关,还是不相关。
当 ρ > 0
,认为变量之间是正相关,也就是两者的趋势一致。
当 ρ < 0
,认为变量之间是负相关,也就是两者的趋势相反。
当 ρ = 0
,认为变量之间是不相关的,但并不代表两个指标是统计独立的。
判断指标间的相关程度。
当 ρ 的绝对值在[0.6,1]之间,认为变量之间是强相关的。
当 ρ 的绝对值在[0.1,0.6)之间,认为变量之间是弱相关的。
当 ρ 的绝对值在[0,0.1)之间,认为变量之间没有相关性。
皮尔逊相关系数适用于:
两个变量之间是线性关系,都是连续数据。
两个变量的总体是正态分布,或接近正态的单峰分布。
两个变量的观测值是成对的,每对观测值之间相互独立。
DataFrame对象的cov
方法和corr
方法分别用于计算协方差和相关系数,corr
方法的第一个参数method
的默认值是pearson
,表示计算皮尔逊相关系数;除此之外,还可以指定kendall
或spearman
来获得肯德尔系数或斯皮尔曼等级相关系数。