皮尔逊相关系数Q,简称相关系数,严格来说,应该称为"线性相关系数”这是因为,相关系数只是刻画了X,Y之间的"线性"关系程度
引言:
总体和样本
总体――所要考察对象的全部个体叫做总体.
我们总是希望得到总体数据的一些特征(例如均值方差等)
样本――从总体中所抽取的一部分个体叫做总体的一个样本.
计算这些抽取的样本的统计量来估计总体的统计量:例如使用样本均值、样本标准差来估计总体的均值(平均
水平)和总体的标准差(偏离程度)。
例子:
我国10年进行一次的人口普查得到的数据就是总体数据。
在QQ群发问卷叫同学帮忙填写得到的数据就是样本数据。
直观理解协方差:如果X、Y变化方向相同,即当X大于(小于)其均值时,Y也大于(小于)其均值,在这两种情况下,乘积为正。如果x、Y的变化方向一直保持相同,则协方差为正;同理,如果X、Y变化方向一直相反,则协方差为负;如果X、Y变化方向之间相互无规律,即分子中有的项为正,有的项为负,那么累加后正负抵消。
注意:协方差的大小和两个变量的量纲有关,因此不适合做比较。
皮尔逊相关系数的一些误区
-
相关系数很大,但是图像不是线性相关
- 非线性相关也会导致线性相关系数很大
- 离群点对相关系数的影响很大,去掉离群点后,相关系数为0.98。
- 如果两个变量的相关系数很大也不能说明两者相关可能是受到了异常值的影响。
总体皮尔逊系数剔除了量纲的影响
相关系数只是用来衡量两个变量线性相关程度的指标;
皮尔逊相关系数,其在协方差的基础上除以各自的标准差,这样就消除了单位,使得计算出来的值介于-1和1之间,相互之间是可比较的,不用受单位的影响。
必须先确认这两个变量是线性相关的,然后这个相关系数才能告诉你他俩相关程度如何。
(1)如果两个变量本身就是线性的关系那么皮尔逊相关系数绝对值夭的就是相关性强,小的就是相关性弱;
(2)在不确定两个变量是什么关系的情况下,即使算出皮尔逊相关系数,发现很大,也不能说明那两个变量线性相关,甚至不能说他们相关,我们一定要画出散点图来看才行。
1.可以利用spss先画散点图确认是否线性相关
2.正态分布检验
3.皮尔逊系数计算
计算完皮尔逊相关系数之后,可以参考下表确认相关性(不绝对):
用spss求完皮尔逊相关系数后,数据复制粘贴到excel进行美化
自己的例子,找以下指标两两之间的关系:
出生年 | 性别 | 民族 | 文化程度 | 婚姻状况 | 职业 | |
一个月不吃饭的次数 | 0.117 | -0.127 | 0 | -0.016 | -0.04 | -0.026 |
最好>=300g每天新鲜蔬菜食用克数 | -0.049 | 0.008 | -0.004 | 0.009 | 0.044 | 0.018 |
最高摄入量500g一天的奶制品克数 | 0.029 | 0.087 | 0.025 | 0.113 | -0.004 | 0.05 |
200g-350g一天的水果食用克数 | 0.021 | 0.149 | 0.012 | 0.068 | 0.002 | 0.049 |
最好120g-200g一天的鱼禽蛋类瘦肉 | 0.029 | -0.084 | -0.016 | -0.041 | -0.033 | 0.017 |
最好>=2每周 | 0.024 | -0.063 | -0.006 | 0.084 | 0.003 | -0.005 |
点条件格式中的色阶
强烈推荐清风的数学建模课程,保姆级教学,不仅讲解算法而且各种基础的excel快捷键,美化操作和论文排版等等也有详细教学。