pandas 的相关性判断

DataFrame的应用

窗口计算

DataFrame对象的rolling方法允许将数据置于窗口中,我们可以使用函数对数据进行运算和处理

相关性判定

在统计学中,我们通常使用协方差来衡量两个随机变量的联合变化程度。如果变量 X 的较大值主要与另一个变量 Y 的较大值相对应,而两者的较小值也相对应,那么两个变量倾向于表现出相似的行为,协方差为正

如果一个变量的较大值主要对应另一个变量的较小值,则两个变量倾向于表现出相反的行为,协方差为负

协方差的正负显示着两个两个变量的相关性,方差是协方差的一种特殊情况,即变量与自身的协方差。
在这里插入图片描述

如果X和Y是统一独立的,那么二者的协方差为0,因为在独立的情况下
在这里插入图片描述

在正态形式的协方差可以显示两变量线性关系的强弱。在统计学中,皮尔逊积矩相关系数就是正态形式的协方差,它用于度量两个变量X和Y之间的相关程度(线性相关),其值介于-1到1之间
在这里插入图片描述

估算样本的协方差和标准差,也可以得到样本的皮尔逊系数,通常用字母ρ表示
在这里插入图片描述
判断指标间是正相关、负相关,还是不相关。

ρ > 0 ,认为变量之间是正相关,也就是两者的趋势一致。
ρ < 0 ,认为变量之间是负相关,也就是两者的趋势相反。
ρ = 0 ,认为变量之间是不相关的,但并不代表两个指标是统计独立的。

判断指标间的相关程度。

当 ρ 的绝对值在[0.6,1]之间,认为变量之间是强相关的。
当 ρ 的绝对值在[0.1,0.6)之间,认为变量之间是弱相关的。
当 ρ 的绝对值在[0,0.1)之间,认为变量之间没有相关性。

皮尔逊相关系数适用于:
两个变量之间是线性关系,都是连续数据。
两个变量的总体是正态分布,或接近正态的单峰分布。
两个变量的观测值是成对的,每对观测值之间相互独立。

DataFrame对象的cov方法和corr方法分别用于计算协方差和相关系数,corr方法的第一个参数method的默认值是pearson,表示计算皮尔逊相关系数;除此之外,还可以指定kendallspearman来获得肯德尔系数或斯皮尔曼等级相关系数。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值