相关性分析_mintable相关性分析用线性还是二次、立方-CSDN博客

本文链接：https://blog.csdn.net/weixin_65259109/article/details/129472265

这里的相关性分析主要是线性相关性分析，当然其他的形状的相关性分析可以通过变换转换为线性相关性分析。但是，线性相关性分析始终是相关性分析的基础。线性相关分析的构建主要分为以下几种：

直接绘制散点图

通过把点标出来主观上看是否是线性相关。

绘制散点图矩阵

绘制散点图矩阵是直接绘制散点图的一种，适用于多元线性回归的描述。如果用直接绘制散点图的方法，将每次取多个元中的两个进行绘画，但是这样很没有逻辑。所以我们可以将这n个元的具体情况用柱状图表示出来，放在正方形的对角线上，这样每一个变量与每一个变量之间都绘制了一个散点图，做到了不重复不遗漏。

计算相关系数

之前的两种方法偏向于定性分析，如果要定量分析，那么就要使用相关系数。在二元变量的相关分析中，比较常用的Pearson相关系数、Spearman秩相关系数、判定系数。

Pearson相关系数

适用条件：分析两个连续性变量的相关关系（不太理解为什么说Pearson线性相关系数要求连续变量的取值服从正态分布）

公式：

判断条件：（其本身的条件决定r的取值为[-1，1]）

是正相关还是负相关：看r的正负，如果是正则是正相关，如果是负则是负相关

判断线性关系的强弱：

看r的绝对值：

绝对值=0：不存在线性关系

绝对值<=0.3：极弱线性相关或不存在线性相关

0.3<绝对值<=0.8：低度线性相关

0.5<绝对值<=0.8：显著线性相关

绝对值>0.8：高度线性相关

绝对值=1：完全线性相关

Spearman秩相关系数

适用条件：不服从正态分布的变量、分类或等级变量之间的关联性分析可以使用Spearman秩相关系数，注意是可以使用，说明正太分布的也可以用Spearman秩相关系数。

公式：（Spearman秩相关系数是统计学的知识，需要对二元的数据的两种数据进行排序，用标号对每个排序数据进行标记，然后对同一个事物的两种排序的标号之差进行运算）

对两个变量成对的取值分别按照从小到大（或者从大到大小）顺序编秩，R i 代表x i 的秩次，Q i 代表y i 的秩次，R i -Q i 为x i 、y i 的秩次之差。

（举个例子）

来自于b站：

统计学与质量052 - 皮尔逊 (Pearson) 相关系数 & 斯皮尔曼 (Spearman) 相关系数_哔哩哔哩_bilibili皮尔森相关系数与与斯皮尔曼相关系数 (Pearson Correlation Coefficient & Spearman’s correlation coefficient for ranked data), 视频播放量 20990、弹幕量 22、点赞数 376、投硬币枚数 187、收藏人数 375、转发人数 89, 视频作者深圳麦粮, 作者简介用动画和图形介绍统计学原理（微信：HLNBGS 群：麦粮统计），相关视频：统计学与质量053 - 简单线性回归最小二乘法决定系数，来感受一下韦教主上习题课时的气压，毕业论文皮尔曼与斯皮尔曼相关系数的区别是什么？#论文-，SPSS 统计分析-两变量间的相关分析，Pearson 、 Spearman、 Kendall 相关分析，使用条件、操作说明、案例详解与论文写作指导，spearman与pearson相关性系数的区别，斯皮尔曼与皮尔森相关性系数的区别，什么是秩次，以美国公布的新冠死亡人数与年龄数据为例，SPSS问卷调查皮尔逊相关性分析（Pearson Correlation）在问卷调查数据统计分析中的应用，社会科学的统计学 | 第六节相关分析 | 皮尔逊相关 | 斯皮尔曼等级相关 | 协方差，SPSS-相关性检验1-皮尔逊相关性检验-Pearson correlation coefficient-SPSS数据分析-SPSS统计分析-SPSS统计分析从，SPSS-相关性检验2-斯皮尔曼等级相关性检验-Spearman correlation coefficient-SPSS数据分析-SPSS统计分析-SPSS统，【用SPSS写论文】相关性分析怎么用到论文中https://www.bilibili.com/video/BV1oE411G7Za/?spm_id_from=333.337.search-card.all.click&vd_source=a50afd4fb17bb7c0aa0f024bc613a5bd

判断Spearman相关的强弱：

对于两个相关系数的建立，都要经过假设检验，一般使用t检验方法进行假设检验。研究表明，在正态分布的假定下，Spearman秩相关系数与Pearson相关系数在效率上是等价的，而对于连续测量数据，更适合于Pearson相关系数来分析。

判定系数

判定系数是相关系数的平方，用来衡量回归方程对y的解释程度。

代码实现：以上两种相关系数都可以通过corr（）函数实现，具体的形式如下。

corr()函数的用法_corr函数_努力学--ing的博客-CSDN博客corr()函数的用法corr可选的方式有三种：1）pearson：相关系数来衡量两个数据集合是否在一条线上面，即针对线性数据的相关系数计算，针对非线性数据便会有误差。2）spearman：非线性的，非正太分析的数据的相关系数3）kendall：用于反映分类变量相关性的指标，即针对无序序列的相关系数，非正太分布的数据其中corr()函数的参数为空时，默认使用的参数为pearson上面的结果验证了，pearson对线性的预测较好，对于幂函数，预测差强人意。...https://blog.csdn.net/weixin_44361900/article/details/108696198?ops_request_misc=&request_id=&biz_id=102&utm_term=corr%EF%BC%88%EF%BC%89&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-0-108696198.nonecase&spm=1018.2226.3001.4187

具体代码如下：

# 代码3-9 餐饮销量数据相关性分析

# 餐饮销量数据相关性分析
from __future__ import print_function
import pandas as pd

catering_sale = 'D:\DataMiningCode\chapter3\demo\data\catering_sale_all.xls'  # 餐饮数据，含有其他属性
data = pd.read_excel(catering_sale, index_col = '日期')  # 读取数据，指定“日期”列为索引列

print(data.corr())  # 相关系数矩阵，即给出了任意两款菜式之间的相关系数,这里的corr方法是默认首先使用Pearson相关系数
print(data.corr()['百合酱蒸凤爪'])  # 只显示“百合酱蒸凤爪”与其他菜式的相关系数
print(data['百合酱蒸凤爪'].corr(data['翡翠蒸香茜饺']))# 计算“百合酱蒸凤爪”与“翡翠蒸香茜饺”的相关系数

运行结果如下：