一、相关分析
1.1含义
相关分析是研究现象之间是否存在某种依存关系,并对具体有 依存关系的现象探讨其相关方向以及相关程度,是研究随机变 量之间的相关关系的一种统计方法
1.2描述方式:
①通过散点图来描述相关
②协方差:如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。协方差一般只能描述变化趋势,无法直观描述变化程度。受度量单位的影响(不能反映变量间线性关系的强弱)
③相关系数:经过标准化后的 Y 和 X 的协方差。取值为[-1,1]。数值表示强度,符号表示方向。
|r|>0.8,强相关;0.5<=|r|<=0.8,强相关;(0.3,5],弱相关,<0.3极弱相关。
1.3 各相关系数的区别
皮尔逊相关系数:一般用来计算两个连续型变量的相关系数。
肯德尔相关系数:一个连续一个分类(最好是定序变量)
斯皮尔曼相关系数:2个变量无论连续还是分类都可以,但斯皮尔曼是非参数的,会损失信息,尽量不用。(面对复杂模型用得较多)
相关系数易受到离群值的影响
二、方差分析
2.1含义
方法层面:检验多个均值是否相等
本质:研究分类型自变量对数值型因变量的影响。
定义:通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。
案例意义:被投诉的行业均值是否相等,判断服务质量或者消费者歧视。
2.2误差分解