皮尔逊相关系数(Pearson Correlation Coefficient)可用于特征降维,如两个特征的皮尔逊相关系数值很高,则可删除其中一个特征。
皮尔逊相关系数(Pearson Correlation Coefficient),记作
r
r
r,是统计学中用于度量两个变量间线性相关程度
的一个指标。它衡量的是两个变量的协变程度
,且其值范围固定在
[
−
1
,
1
]
[-1, 1]
[−1,1] 之间。
- 当
r
=
1
r = 1
r=1 时,表示两个变量
完全正相关
; - 当
r
=
−
1
r = -1
r=−1 时,表示
完全负相关
; - 当
r
=
0
r = 0
r=0 时,表示两个变量
没有线性相关性
。
计算公式
皮尔逊相关系数的计算公式为:
r = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 n ( x i − x ˉ ) 2 ∑ i = 1 n ( y i − y ˉ ) 2 r = \frac{\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2\sum_{i=1}^{n}(y_i-\bar{y})^2}} r=∑i=1n(xi−xˉ)2∑i=1n(yi−yˉ)2∑i=1n(xi−xˉ)(yi−yˉ)
其中:
-
x
i
,
y
i
x_i, y_i
xi,yi 分别是两个变量
X
X
X 和
Y
Y
Y 的第
i
i
i 个
观测值。
-
n
n
n 是
观测值的数量。
-
x
ˉ
,
y
ˉ
\bar{x}, \bar{y}
xˉ,yˉ 分别是变量
X
X
X 和
Y
Y
Y 的
样本均值。
- 分子部分是两个变量的
协方差(未标准化)。
- 分母是两个变量
各自标准差的乘积。
对公式的每个字符进行解释:
- r r r:皮尔逊相关系数的值。
- ∑ \sum ∑:求和符号,用来计算一系列数值的总和。
- x i , y i x_i, y_i xi,yi:分别是两个变量 X X X 和 Y Y Y 的观测值。
- x ˉ , y ˉ \bar{x}, \bar{y} xˉ,yˉ:分别是变量 X X X 和 Y Y Y 的样本均值,即所有 x i x_i xi 或 y i y_i yi 的平均值。
- n n n:样本中观测值的总数。
- ( x i − x ˉ ) ( y i − y ˉ ) (x_i-\bar{x})(y_i-\bar{y}) (xi−xˉ)(yi−yˉ):这是每个观测值对协方差的贡献。
- ( x i − x ˉ ) 2 (x_i-\bar{x})^2 (xi−xˉ)2 和 ( y i − y ˉ ) 2 (y_i-\bar{y})^2 (yi−yˉ)2:这是每个观测值对各自变量方差的贡献。
- \sqrt{} :根号表示开方运算,用于计算标准差。
皮尔逊相关系数的计算需要两个变量的观测值都具有数值属性
,并且通常假设数据服从正态分布
,虽然在实际应用中,这一假设有时会被放宽。
这个系数有助于理解两个变量间的关系强度和方向
,但并不能揭示因果关系。
此外,皮尔逊相关系数仅适用于检测线性关系,对于非线性关系,可能需要使用其他相关性度量。