皮尔逊相关系数(Pearson Correlation Coefficient)

皮尔逊相关系数(Pearson Correlation Coefficient)可用于特征降维,如两个特征的皮尔逊相关系数值很高,则可删除其中一个特征。

皮尔逊相关系数(Pearson Correlation Coefficient),记作 r r r,是统计学中用于度量两个变量间线性相关程度的一个指标。它衡量的是两个变量的协变程度,且其值范围固定在 [ − 1 , 1 ] [-1, 1] [1,1] 之间。

  • r = 1 r = 1 r=1 时,表示两个变量完全正相关
  • r = − 1 r = -1 r=1 时,表示完全负相关
  • r = 0 r = 0 r=0 时,表示两个变量没有线性相关性

计算公式

皮尔逊相关系数的计算公式为:

r = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 n ( x i − x ˉ ) 2 ∑ i = 1 n ( y i − y ˉ ) 2 r = \frac{\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2\sum_{i=1}^{n}(y_i-\bar{y})^2}} r=i=1n(xixˉ)2i=1n(yiyˉ)2 i=1n(xixˉ)(yiyˉ)

其中:

  • x i , y i x_i, y_i xi,yi 分别是两个变量 X X X Y Y Y 的第 i i i观测值。
  • n n n观测值的数量。
  • x ˉ , y ˉ \bar{x}, \bar{y} xˉ,yˉ 分别是变量 X X X Y Y Y样本均值。
  • 分子部分是两个变量的协方差(未标准化)。
  • 分母是两个变量各自标准差的乘积。

对公式的每个字符进行解释:

  • r r r:皮尔逊相关系数的值。
  • ∑ \sum :求和符号,用来计算一系列数值的总和。
  • x i , y i x_i, y_i xi,yi:分别是两个变量 X X X Y Y Y 的观测值。
  • x ˉ , y ˉ \bar{x}, \bar{y} xˉ,yˉ:分别是变量 X X X Y Y Y 的样本均值,即所有 x i x_i xi y i y_i yi 的平均值。
  • n n n:样本中观测值的总数。
  • ( x i − x ˉ ) ( y i − y ˉ ) (x_i-\bar{x})(y_i-\bar{y}) (xixˉ)(yiyˉ):这是每个观测值对协方差的贡献。
  • ( x i − x ˉ ) 2 (x_i-\bar{x})^2 (xixˉ)2 ( y i − y ˉ ) 2 (y_i-\bar{y})^2 (yiyˉ)2:这是每个观测值对各自变量方差的贡献。
  • \sqrt{} :根号表示开方运算,用于计算标准差。

皮尔逊相关系数的计算需要两个变量的观测值都具有数值属性,并且通常假设数据服从正态分布,虽然在实际应用中,这一假设有时会被放宽。

这个系数有助于理解两个变量间的关系强度和方向,但并不能揭示因果关系。

此外,皮尔逊相关系数仅适用于检测线性关系,对于非线性关系,可能需要使用其他相关性度量。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不易撞的网名

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值