相关性分析

这里的相关性分析主要是线性相关性分析,当然其他的形状的相关性分析可以通过变换转换为线性相关性分析。但是,线性相关性分析始终是相关性分析的基础。线性相关分析的构建主要分为以下几种:

直接绘制散点图

通过把点标出来主观上看是否是线性相关。

绘制散点图矩阵

绘制散点图矩阵是直接绘制散点图的一种,适用于多元线性回归的描述。如果用直接绘制散点图的方法,将每次取多个元中的两个进行绘画,但是这样很没有逻辑。所以我们可以将这n个元的具体情况用柱状图表示出来,放在正方形的对角线上,这样每一个变量与每一个变量之间都绘制了一个散点图,做到了不重复不遗漏。

计算相关系数

之前的两种方法偏向于定性分析,如果要定量分析,那么就要使用相关系数。在二元变量的相关分析中,比较常用的Pearson相关系数、Spearman秩相关系数、判定系数。

Pearson相关系数

适用条件:分析两个连续性变量的相关关系(不太理解为什么说Pearson线性相关系数要求连续变量的取值服从正态分布)

公式:

判断条件:(其本身的条件决定r的取值为[-1,1])

是正相关还是负相关:看r的正负,如果是正则是正相关,如果是负则是负相关

判断线性关系的强弱:

看r的绝对值:

绝对值=0:不存在线性关系

绝对值<=0.3:极弱线性相关或不存在线性相关

0.3<绝对值<=0.8:低度线性相关

0.5<绝对值<=0.8:显著线性相关

绝对值>0.8:高度线性相关

绝对值=1:完全线性相关

Spearman秩相关系数

适用条件:不服从正态分布的变量、分类或等级变量之间的关联性分析可以使用Spearman秩相关系数,注意是可以使用,说明正太分布的也可以用Spearman秩相关系数。

公式:(Spearman秩相关系数是统计学的知识,需要对二元的数据的两种数据进行排序,用标号对每个排序数据进行标记,然后对同一个事物的两种排序的标号之差进行运算)

 对两个变量成对的取值分别按照从小到大(或者从大到大小)顺序编秩,R i 代表x i 的秩次,Q i 代表y i 的秩次,R i -Q i 为x i 、y i 的秩次之差。

(举个例子)

来自于b站:

统计学与质量052 - 皮尔逊 (Pearson) 相关系数 & 斯皮尔曼 (Spearman) 相关系数_哔哩哔哩_bilibili皮尔森相关系数 与 与斯皮尔曼相关系数 (Pearson Correlation Coefficient & Spearman’s correlation coefficient for ranked data), 视频播放量 20990、弹幕量 22、点赞数 376、投硬币枚数 187、收藏人数 375、转发人数 89, 视频作者 深圳麦粮, 作者简介 用动画和图形介绍统计学原理(微信:HLNBGS 群:麦粮统计),相关视频:统计学与质量053 - 简单线性回归 最小二乘法 决定系数,来感受一下韦教主上习题课时的气压,毕业论文皮尔曼与斯皮尔曼相关系数的区别是什么?#论文-,SPSS 统计分析-两变量间的相关分析,Pearson 、 Spearman、 Kendall 相关分析,使用条件、操作说明、案例详解与论文写作指导,spearman与pearson相关性系数的区别,斯皮尔曼与皮尔森相关性系数的区别,什么是秩次,以美国公布的新冠死亡人数与年龄数据为例,SPSS问卷调查皮尔逊相关性分析(Pearson Correlation)在问卷调查数据统计分析中的应用,社会科学的统计学 | 第六节 相关分析 | 皮尔逊相关 | 斯皮尔曼等级相关 | 协方差,SPSS-相关性检验1-皮尔逊相关性检验-Pearson correlation coefficient-SPSS数据分析-SPSS统计分析-SPSS统计分析从,SPSS-相关性检验2-斯皮尔曼等级相关性检验-Spearman correlation coefficient-SPSS数据分析-SPSS统计分析-SPSS统,【用SPSS写论文】相关性分析怎么用到论文中https://www.bilibili.com/video/BV1oE411G7Za/?spm_id_from=333.337.search-card.all.click&vd_source=a50afd4fb17bb7c0aa0f024bc613a5bd

 判断Spearman相关的强弱:

 

对于两个相关系数的建立,都要经过假设检验,一般使用t检验方法进行假设检验。研究表明,在正态分布的假定下,Spearman秩相关系数与Pearson相关系数在效率上是等价的,而对于连续测量数据,更适合于Pearson相关系数来分析。

判定系数

判定系数是相关系数的平方,用来衡量回归方程对y的解释程度。

代码实现:以上两种相关系数都可以通过corr()函数实现,具体的形式如下。

corr()函数的用法_corr函数_努力学--ing的博客-CSDN博客corr()函数的用法corr可选的方式有三种:1)pearson:相关系数来衡量两个数据集合是否在一条线上面,即针对线性数据的相关系数计算,针对非线性数据便会有误差。2)spearman:非线性的,非正太分析的数据的相关系数3)kendall:用于反映分类变量相关性的指标,即针对无序序列的相关系数,非正太分布的数据其中corr()函数的参数为空时,默认使用的参数为pearson上面的结果验证了,pearson对线性的预测较好,对于幂函数,预测差强人意。...https://blog.csdn.net/weixin_44361900/article/details/108696198?ops_request_misc=&request_id=&biz_id=102&utm_term=corr%EF%BC%88%EF%BC%89&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-0-108696198.nonecase&spm=1018.2226.3001.4187

具体代码如下:

# 代码3-9 餐饮销量数据相关性分析

# 餐饮销量数据相关性分析
from __future__ import print_function
import pandas as pd

catering_sale = 'D:\DataMiningCode\chapter3\demo\data\catering_sale_all.xls'  # 餐饮数据,含有其他属性
data = pd.read_excel(catering_sale, index_col = '日期')  # 读取数据,指定“日期”列为索引列

print(data.corr())  # 相关系数矩阵,即给出了任意两款菜式之间的相关系数,这里的corr方法是默认首先使用Pearson相关系数
print(data.corr()['百合酱蒸凤爪'])  # 只显示“百合酱蒸凤爪”与其他菜式的相关系数
print(data['百合酱蒸凤爪'].corr(data['翡翠蒸香茜饺']))# 计算“百合酱蒸凤爪”与“翡翠蒸香茜饺”的相关系数

 运行结果如下:

 

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

踏歌~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值