1、作用
相关分析是对变量两两之间的相关程度进行分析。相关分析的计算方式有三种,分别是 Pearson 相关系数(适用于定量数据,且数据满足正态分布)、Spearman 相关系数(数据不满足正态分布时或者定序数据使用)、kappa一致性检验(定类变量)
2、输入输出描述
输入:两个或者两个以上的定量变量或定序变量
输出:两两变量之间是否呈现显著性相似以及相似的程度
3、案例示例
人的身高和体重之间;空气中的相对湿度与降雨量之间的相关关系都是相关分析研究的问题
4、变量类型
1.定类变量:只能区分为某一类别,类别平等
2.定序变量:只能区分为某一类别,类别有序
3.定量变量:可以用具体数值表示
4.定比变量:可以用具体数值表示,存在零点。定比变量各类别之间的距离,不仅能用加减而且能用乘除或倍数形式来说明它们之间的关系
5、建模步骤
皮尔逊相关系数
两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商:
上式定义了总体相关系数,常用希腊小写字母 作为代表符号。估算样本的协方差和标准差,可得到皮尔逊相关系数,常用英文小写字母r代表:
r亦可由样本点的标准分数均值估计,得到与上式等价的表达式:
其中 、
及
分别是对
样本的标准分数、样本平均值和样本标准差。
斯皮尔曼相关系数
斯皮尔曼相关系数被定义成等级变量之间的皮尔逊相关系数。对于样本容量为n的样本,n个原始数据被转换成等级数据,相关系数 为:
为
的等级差,
位于(-1,1)之间。
kappa 系数
kappa系数是一种衡量分类精度的指标。它是通过把所有地表真实分类中的像元总数(N)乘以混淆矩阵对角线(Xkk)的和,再减去某一类地表真实像元总数与该类中被分类像元总数之积对所有类别求和的结果,再除以总像元数的平方减去某一类地表真实像元总数与该类中被分类像元总数之积对所有类别求和的结果所得到的。
其中,P0是每一类正确分类的样本数量之和除以总样本数,也就是总体分类精度 。
假设每一类的真实样本个数分别为a1,a2,...,aC,而预测出来的每一类的样本个数分别为b1,b2,...,bC
总样本个数为n,则有: