目录
两个变量间的相关系数(皮尔逊与斯皮尔曼)
使用条件
计算与检验
案例与计算
偏相关系数
使用条件
计算方法
例题
- c a t ( ) cat() cat():用来连接数组
cat(2, A, B)# 相当于[A, B];
cat(1, A, B)# 相当于[A; B].
S p e a r m a n Spearman Spearman等级相关系数
使用条件及公式
- 注意:两个变量的排列顺序要相同,都从大到小,或都从小到大
检验
- 趋同关系,即显著的等级相关性
例题
K e n d a l l Kendall Kendall秩相关系数
概念及使用条件
计算公式及检验条件
程序计算
- 后面两种相关系数的要求较宽松,精确性较低,如果条件较好,数据量较大,正态性相当满足,应当使用 P e a r s o n Pearson Pearson相关系数
单因素方差分析
使用背景
- 自变量收集有困难时,不收集太多,只收集几个点,即分类数据
处理问题
- 研究某个因素对某个对象是否有影响
- 哪些因素是主要的,哪些是次要的
- 每个因素位于何种水平时,对象最优
例题
- 研究温度对着色度的影响
数学原理
通径分析
相关概念
- 简单相关系数就是通径,包含了间接通径与直接通径
例题与程序
- 取对数,是将非线性问题(幂函数模型)转为线性问题,指数反映的是因变量对自变量的弹性
- 概率都小于0.05,三个变量都对因变量有影响,没有可以删除的数据
典型相关分析(多个相关的自变量与多个相关的因变量之间的关系)
- 补充:要求总体数据符合正态分布
构造新的变量
- 新构造的u与v是无关的
- 如果u与v的数目不同,不用管
计算步骤
- 这些系数就是正交阵的标准化的特征向量
- 卡方检验
例子
- zscore 标准化
这种方法基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。
zscore标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。
新数据=(原数据-均值)/标准差
用法为:
Y=zscore(X)
# x为标准化之前的数据,y为标准化后的数据
- 特点:
(1)样本平均值为0,方差为1;
(2)区间不确定,处理后各指标的最大值、最小值不相同;
(3)对于指标值恒定的情况不适用;
(4)对于要求标准化后数据 大于0 的评价方法(如几何加权平均法)不适用。
- 解释: u 1 = 0.3498 x 1 − 1.0378 x 2 , v 1 = 0.8119 y 1 + 0.4204 y 2 + 0.0289 y 3 , r 1 = 0.7352 u_1=0.3498x_1-1.0378x_2,v_1=0.8119y_1+0.4204y_2+0.0289y_3,r_1=0.7352 u1=0.3498x1−1.0378x2,v1=0.8119y1+0.4204y2+0.0289y3,r1=0.7352
- 原先的显著性概率为0.05,但是一组也没有满足,所以适当提高显著性概率为0.01,第一组通过,第二组未通过(灵活应对数据)
- 因为 v 1 和 u 1 v_1和u_1 v1和u1的相关性高,所以 x 2 主 要 影 响 y 1 和 y 2 ( y 3 的 系 数 太 小 ) x_2主要影响y_1和y_2(y_3的系数太小) x2主要影响y1和y2(y3的系数太小)(分析数据时要讨论主要数据)
主成分分析
起源原因
- 寻找重要因素
- 综合评价要求评价指标线性无关
- 建立回归模型的需要(回归模型要求自变量线性无关,样本点较大)
思想原理
- x ∗ x^* x∗代表标准化后的数据
- 信息量不可以受损,即新变量的方差之和要等于原来变量的方差之和( ∑ i λ i = p \sum_i\lambda_i=p ∑iλi=p)
- 由于之前的 Z Z Z互不相关,因此,除了主对角线,其余的协方差均为0
计算步骤
- 建立相应主成分方程: 相应的特征向量单位化,正交化,变为正交阵,然后转置
案例分析
- 最大的特征值对应的特征向量在最后一列
- 最重要的变量:在第一主成分里找数值最大的(橙色部分)