相似度计算方法-皮尔逊相关系数 (Pearson Correlation Coefficient)

xy2006860

于 2024-08-15 15:16:54 发布

阅读量972

点赞数 15

文章标签：算法

本文链接：https://blog.csdn.net/xy2006860/article/details/141221759

版权

定义

皮尔逊相关系数（Pearson correlation coefficient）是一种统计度量，用于量化两个变量之间的线性关系强度和方向。该系数的值范围在 -1 到 +1 之间：

+1 表示完全正相关；
0 表示没有线性相关性；
-1 表示完全负相关。

计算公式

对于两个变量 $X$ 和 $Y$ ，它们的观测值分别为 $(x_1, x_2, \ldots, x_n)$ 和 $(y_1, y_2, \ldots, y_n)$ ，皮尔逊相关系数 $r$ 可以用以下公式计算：

$r = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2} \sqrt{\sum_{i=1}^{n}(y_i - \bar{y})^2}}$

这里：
- $\bar{x}$ 是变量 $X$ 的平均值；
- $\bar{y}$ 是变量 $Y$ 的平均值；
- $(x_i - \bar{x})(y_i - \bar{y})$ 是变量 $X$ 和变量 $Y$ 在第 $i$ 个观测值处的偏差乘积；
- $(x_i - \bar{x})^2$ 和 $(y_i - \bar{y})^2$ 分别是变量 $X$ 和变量 $Y$ 的偏差平方和。

皮尔逊相关系数、Spearman相关系数、Kendall相关系数

皮尔逊相关系数 (Pearson correlation coefficient)

定义：皮尔逊相关系数衡量的是两个变量之间的线性相关性强度和方向。
适用场景：
- 连续型数据。
- 数据分布大致呈正态分布。
- 当你关心的是变量之间的线性关系时。
优点：
- 直观且易于理解。
- 适用于大多数标准的统计分析。
缺点：
- 对异常值敏感。
- 只能衡量线性关系。

Spearman相关系数 (Spearman's rank correlation coefficient)

定义：Spearman相关系数是基于两个变量排名的皮尔逊相关系数。
适用场景：
- 非参数数据（数据不一定服从正态分布）。
- 有序分类数据。
- 当你关心的是变量之间的单调关系而非严格线性关系时。
优点：
- 不受异常值的影响。
- 适用于非正态分布的数据。
缺点：
- 不直接度量变量之间的线性关系。

Kendall相关系数 (Kendall's tau)

定义：Kendall相关系数也是基于排名的，但它计算的是成对观察值的协序数（concordant pairs）和逆序数（discordant pairs）的比例。
适用场景：
- 非参数数据。
- 有序分类数据。
- 当数据集较小或有大量重复值时。
优点：
- 对异常值不敏感。
- 在小样本情况下表现良好。
缺点：
- 计算稍微复杂一些。
- 与Spearman相关系数相比，对于较大的数据集来说可能效率较低。

代码实现

import java.util.Arrays;

public class PearsonCorrelation {

    public static void main(String[] args) {
        double[] x = {1.0, 2.0, 3.0, 4.0, 5.0};
        double[] y = {2.0, 4.0, 6.0, 8.0, 10.0};

        double correlation = calculatePearsonCorrelation(x, y);
        System.out.printf("The Pearson correlation coefficient is: %.2f\n", correlation);
    }

    /**
     * 计算两个向量之间的皮尔逊相关系数。
     *
     * @param x 第一个向量的坐标数组
     * @param y 第二个向量的坐标数组
     * @return 两个向量之间的皮尔逊相关系数
     */
    public static double calculatePearsonCorrelation(double[] x, double[] y) {
        if (x.length != y.length) {
            throw new IllegalArgumentException("Vectors must have the same dimensions.");
        }

        double meanX = Arrays.stream(x).average().orElse(0.0);
        double meanY = Arrays.stream(y).average().orElse(0.0);

        double numerator = 0.0;
        double denominatorX = 0.0;
        double denominatorY = 0.0;

        for (int i = 0; i < x.length; i++) {
            double deviationX = x[i] - meanX;
            double deviationY = y[i] - meanY;

            numerator += deviationX * deviationY;
            denominatorX += deviationX * deviationX;
            denominatorY += deviationY * deviationY;
        }

        double denominator = Math.sqrt(denominatorX) * Math.sqrt(denominatorY);

        return numerator / denominator;
    }
}

Pandas中的计算：

import pandas as pd

# 创建示例数据
data = {
    'x': [10, 15, 20, 15, 25, 30, 20, 25, 30, 35, 40, 45],
    'y': [100, 150, 200, 150, 250, 300, 200, 250, 300, 350, 400, 450]
}

# 将数据转换为DataFrame
df = pd.DataFrame(data)

# 计算皮尔逊相关系数
pearson_corr = df['x'].corr(df['y'], method='pearson')
print("Pearson Correlation Coefficient:", pearson_corr)

# 计算Spearman相关系数
spearman_corr = df['x'].corr(df['y'], method='spearman')
print("Spearman Correlation Coefficient:", spearman_corr)

# 计算Kendall相关系数
kendall_corr = df['x'].corr(df['y'], method='kendall')
print("Kendall Correlation Coefficient:", kendall_corr)

.corr() 方法:

这个方法默认计算皮尔逊相关系数，但也可以指定其他类型的相关系数，如Spearman或Kendall。
你可以通过传入method='pearson'参数来明确指定使用皮尔逊相关系数。
如果你想要计算DataFrame中所有列之间的相关系数矩阵，可以简单地调用df.corr()，这将返回一个包含所有列之间的相关系数的DataFrame。

优劣势

优势

直观性强：
- 皮尔逊相关系数的取值范围在 [−1,1][−1,1] 之间，容易理解。
- 当 r=1r=1 时，表示两个变量之间存在完全正相关关系；当 r=−1r=−1 时，表示存在完全负相关关系；当 r=0r=0 时，表示没有线性相关关系。
标准化：
- 皮尔逊相关系数是经过标准化的，这意味着它可以比较不同尺度的变量之间的相关性。
数学性质：
- 皮尔逊相关系数满足一些重要的数学性质，如对称性（ $r_{XY}=r_{YX}$ ）和三角不等式。
广泛适用：
- 皮尔逊相关系数适用于多种类型的数据分析，包括社会科学、自然科学、经济学、生物学等领域。
易于计算：
- 皮尔逊相关系数的计算基于简单的数学公式，易于编程实现。
- 对于低维数据，计算速度较快。
鲁棒性：
- 皮尔逊相关系数在处理小样本数据时表现较好，尤其是在样本量适中时。

劣势

只衡量线性相关性：
- 皮尔逊相关系数只能衡量两个变量之间的线性相关性，无法捕捉非线性相关性。
- 当变量之间存在非线性关系时，皮尔逊相关系数可能无法准确反映它们之间的相关性。
对外界因素敏感：
- 皮尔逊相关系数对外界因素（如异常值）非常敏感。
- 单个异常值可以极大地影响皮尔逊相关系数的值，导致误判。
假设条件：
- 皮尔逊相关系数的有效性基于一些假设条件，包括变量的联合分布应近似服从正态分布。
- 如果这些假设条件不成立，皮尔逊相关系数的解释可能会受到限制。
不适用于分类数据：
- 皮尔逊相关系数主要用于数值型数据，对于分类数据可能不适用。
- 在处理分类数据时，可能需要考虑其他相关系数，如肯德尔等级相关系数（Kendall's tau）或斯皮尔曼等级相关系数（Spearman's rho）等。