特征工程——相关性分析（皮尔逊和斯皮尔曼）

一起学习吧！

已于 2024-06-27 11:16:34 修改

阅读量8.1k

点赞数 40

文章标签：算法机器学习人工智能

于 2024-06-26 19:35:27 首次发布

本文链接：https://blog.csdn.net/weixin_52040570/article/details/139953837

版权

1.皮尔逊相关系数

实现原理

皮尔逊相关系数是用来衡量两个变量之间线性相关程度的统计量，记作 $eq?r$ ，其取值范围为 [-1, 1]。公式如下：

$eq?r%20%3D%20%5Cfrac%7B%5Csum%20%28x_i%20-%20%5Cbar%7Bx%7D%29%28y_i%20-%20%5Cbar%7By%7D%29%7D%7B%5Csqrt%7B%5Csum%20%28x_i%20-%20%5Cbar%7Bx%7D%29%5E2%20%5Csum%20%28y_i%20-%20%5Cbar%7By%7D%29%5E2%7D%7D$

其中：

$eq?x_%7Bi%7D%2Cy_%7Bi%7D$ 是两个变量的观测值

$eq?%5Cbar%7Bx%7D%2C%5Cbar%7By%7D$ 是两个变量的均值

取值范围

$eq?r$ =1：完全正相关，两个变量完全线性相关，且方向相同。

$eq?r$ =-1：完全负相关，两个变量完全线性相关，但方向相反。

$eq?r$ =0：不相关，两个变量没有线性关系。

计算过程

1.计算变量 $eq?x$ 和 $eq?y$ 的均值 $eq?%5Cbar%7Bx%7D%2C%5Cbar%7By%7D$ 。

2.对每对观测值( $eq?x_%7Bi%7D%2Cy_%7Bi%7D$ )计算各自与均值的差 $eq?x_%7Bi%7D-%5Cbar%7Bx%7D%2Cy_%7Bi%7D-%5Cbar%7By%7D$ 。

3.计算这些差值的乘积之和， $eq?%5CSigma$ 。

4.分别计算这些差值的平方和， $eq?%5CSigma$ 。

5.最后：（步骤 3 的结果）除以（步骤 4 的结果的平方根）。

数据集

假设我们有以下数据集：

特征 a: [1, 2, 3, 4, 6, 10]

特征 b: [89, 100, 119, 150, 188, 200]

代码实现

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# 数据集(有线性关系)
data = {
    'a':[1, 2, 3, 4, 6, 10],
    'b':[89, 100, 119, 150, 188, 200]
}

# 创建DataFrame
df = pd.DataFrame(data)

# 计算皮尔逊相关系数矩阵
corr_matrix = df.corr(method='pearson')

# 打印相关系数矩阵
print("皮尔逊相关系数矩阵:")
print(corr_matrix)

# 绘制热力图
plt.figure(figsize=(8, 6))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', vmin=-1, vmax=1)
plt.title('Correlation Matrix Heatmap')
plt.show()

运行结果

特征 a 和 b：相关系数为 0.94，表示两者之间存在较强的正相关关系。

适用范围

1.线性关系：皮尔逊相关系数仅适用于测量两个变量之间的线性关系。如果两个变量之间存在非线性关系，皮尔逊相关系数可能无法准确反映其相关性。

2.连续变量：皮尔逊相关系数适用于连续型数据（如测量值、比率等），不适用于分类数据或秩次数据。

3.正态分布：理想情况下，变量应当服从正态分布，或者至少满足对称分布。

4.无异常值：皮尔逊相关系数对异常值非常敏感，异常值可能会显著影响相关系数的大小和方向。

2.斯皮尔曼相关系数

秩次

假设我们有一组数据，秩次就是将这些数据按大小顺序排列，并赋予每个数据点一个唯一的排序位置（即排名）。例如，如果我们有一组数据 [3,1,4,1,5]，对其进行排序后得到 [1,1,3,4,5]，其秩次就为 [2.5,2.5,1,3,4]。

为什么存在2.5呢？如果有相同的值（称为“平秩”），则这些值的秩次是它们排序位置的平均值。

实现原理

斯皮尔曼相关系数是衡量两个变量排序后之间相关程度的非参数统计量，记作 $eq?r_%7Bs%20%7D$ ，其取值范围为 [-1, 1]。公式如下：

$eq?r_s%20%3D%201%20-%20%5Cfrac%7B6%20%5Csum%20d_i%5E2%7D%7Bn%28n%5E2%20-%201%29%7D$

其中：

$eq?R%28x_%7Bi%7D%29%2CR%28y_%7Bi%7D%29$ 分别是 $eq?x_%7Bi%7D%2Cy_%7Bi%7D$ 的秩次。

$eq?d_%7Bi%7D$ 是每对数据点的秩次差，即 $eq?d_%7Bi%7D%3DR%28x%29-R%28y%29$ 。

$eq?n$ 是观测值的数量。

取值范围

$eq?r_%7Bs%20%7D$ =1：完全正相关，两个变量的排序完全一致。

$eq?r_%7Bs%20%7D$ =-1：完全负相关，两个变量的排序完全相反。

$eq?r_%7Bs%20%7D$ =0：不相关，两个变量的排序无关。

计算过程

假设我们有以下数据集：

$eq?x$	$eq?y$
86	92
97	98
85	96
92	91
99	100

1.排序并赋秩次：

$eq?x$	$eq?y$	$eq?R%28x%29$	$eq?R%28y%29$
86	92	2	2
97	98	4	4
85	96	1	3
92	91	3	1
99	100	5	5

2.计算秩次差：

$eq?x$	$eq?y$	$eq?R%28x%29$	$eq?R%28y%29$	$eq?d_%7Bi%7D$ $eq?%3DR%28x%29-R%28y%29$	$eq?d_%7Bi%7D%5E%7B2%7D$
86	92	2	2	0	0
97	98	4	4	0	0
85	96	1	3	-2	4
92	91	3	1	2	4
99	100	5	5	0	0

3.计算差的平方和：

$eq?%5CSigma%20d_%7Bi%7D%5E%7B2%7D$ =0+0+4+4+0=8

4.代入公式：

$eq?n%3D5$

计算得 $eq?r_%7Bs%7D$ $eq?%3D0.6$

0.6即为皮尔曼系数。

代码实现

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from scipy.stats import spearmanr

# 生成示例数据
np.random.seed(0)
data = {
    'Variable1': np.random.randint(1, 100, 50),
    'Variable2': np.random.randint(1, 100, 50),
    'Variable3': np.random.randint(1, 100, 50),
    'Variable4': np.random.randint(1, 100, 50),
    'Variable5': np.random.randint(1, 100, 50)
}

# 将数据转换为 DataFrame
df = pd.DataFrame(data)

# 计算斯皮尔曼相关系数矩阵
corr_matrix = df.corr(method='spearman')

# 创建热力图
plt.figure(figsize=(10, 8))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', center=0, vmin=-1, vmax=1)
plt.title("Spearman Rank Correlation Heatmap")
plt.show()