系列文章目录
文章目录
前言
在实践中我们常常会遇到一些问题的总体分布并不明确,或者总体参数的假设条件不成立,不能使用参数检验。这一类问题的检验应该采用统计学中的另一类方法,即非参数检验。
1 非参数检验提出的背景与特点
1.1 背景
非参数检验是不依赖总体分布的统计推断方法。它是指在总体不服从正态分布且分布情况不明时,用来检验数据资料是否来自同一个总体假设的一类检验方法。由于这些方法一般不涉及总体参数而得名。这类方法的假定前提比参数假设检验方法少得多,也容易满足,适用于计量信息较弱的资料且计算方法也简便易行,所以在实际中有广泛的应用。
1.2 特点
和参数方法相比,非参数检验方法的优势如下:
- 1.2.1稳健性。因为对总体分布的约束条件大大放宽,不至于因为对统计中的假设过分理想化而无法切合实际情况,从而对个别偏离较大的数据不至于太敏感。
- 1.3.2 对数据的测量尺度无约束,对数据的要求也不严格,什么数据类型都可以做。
- 1.3.3 适用于小样本、无分布样本、数据污染样本、混杂样本等。
- 参数检验和非参数检验的效率比较
2 SPSS分析-非参数检验菜单中的相关功能
SPSS 中进行非参数检验由分析菜单中的非参数检验菜单项导出。其中包括以下命令。
● Chi-square test: 卡方检验。
● Binomial test: 二项分布检验。
● Runs test: 游程检验。
● 1-Simple K-S test: 单样本K-S检验。
● 2 Independent Sample test: 两个独立样本非参数检验。
● K Independent Samples test: 多个独立样本非参数检验。
● 2 Related Sample test: 两个相关样本非参数检验。
● K Related Sample test: 多个相关样本非参数检验。
2.1 卡方检验
2.1.1 概述
1.使用目的
卡方检验(Chi-Squar Test)也称为卡方拟合优度检验,是K.Pearson给出的一种最常用的非参数检验方法。它用于检验观测数据是否与某种概率分布的理论数值相符合,进而推断观测数据是否是来自于该分布的样本的问题。
2.基本原理
进行卡方检验时,首先提出零假设 : 样本X来自的总体分布服从期望分布或某一理论分布。接着,利用实际观测值的频数与理论的期望频数之间的差异来构造检验统计量,它描述了观察值和理论值之间的偏离程度。
3.软件使用方法
SPSS会自动计算出χ2统计量及对应的相伴概率P值。
2.1.2 操作流程
- Step01:打开主菜单
选择菜单栏中的【Analyze(分析)】 →【Nonparametric Tests(非参数检验)】→【Legacy Dialogs(旧对话框)】→【Chi-Square(卡方)】命令,弹出【Chi-Square Test(卡方检验)】对话框。 - Step02:选择检验变量
在【Chi-Square Test(卡方检验)】对话框左侧的候选变量列表框中选择一个或几个变量,将其添加至【Test Variable List(检验变量列表)】列表框中,表示需要进行进行卡方检验的变量。 - Step03:确定检验范围
在【Expected Range(期望全距)】选项组中可以确定检验值的范围,对应有两个单选项。 - Step04:选择期望值
在【Expected Values(期望值)】选项组中可以指定期望值 ,对应有两个单选项。
2.1.3 实例操作
1.实例内容
某公司经营多年,形成了一套成熟的企业文化和管理体系,例如根据多年的运营经验,经理层、监察员、办事员三种职务类别人员比例大约在15:5:80为宜,这样运行效率最高。目前公司进行人事调整,公司人员结构发生变动,有员工担心是否人事调整已经导致职务类型比例的失调。
三种职务的期望构成比为15%、5%和80%。而目前样本中观察到的三种职务的人数比为84:27:363,构成比分别是17.7%、5.7%和76.6%,和理论值有差异。那么这种差异是由随机误差造成的,还是真的构成比和以前有所变化?该问题就可以用χ2检验来实现。相应的假设检验如下。
H0:目前三个职业的总体构成比仍然是15%、5%和80%。
H1:目前三个职业的总体构成比不再是15%、5%和80% 。
2.操作
- Step01:打开对话框
打开数据文件,选择菜单栏中的【Analyze(分析)】 →【Nonparametric Tests(非参数检验)】→【Legacy Dialogs(旧对话框)】→【Chi-Square(卡方)】命令,弹出【Chi-Square Test(卡方检验)】对话框。其中,“jobcat”变量表示职业类型, “1”表示办事员,“2”表示监察员,“3”表示经理。 - Step02:选择检验变量
在左侧的候选变量列表框中选择“jobcat”变量作为检验变量,将其添加至【Test Variable List(检验变量列表)】列表框中。
Step03:选择期望值
在【Expected Values(期望值)】选项组中点选【Values】单选钮,以指定期望概率值。接着在Values的文本框中分别输入0.8、0.05和0.15这三个数值,并且单击【Add】按钮加以确定。
Step04:完成操作
最后,单击【OK(确定)】按钮,操作完成。
3.结果分析
(1)频数表
SPSS的结果报告中列出了期望频数和实际频数。显然残差值越小,说明实际频数与期望频数越接近。
(2)卡方检验表
具体包括 统计量(Chi-Square)、自由度(df)和近似概率P值(Asymp. Sig.)。可见, 统计量等于3.492,自由度等于2,对应的概率P值0.174大于显著性水平0.05。因此接受零假设,认为目前三个职业的总体构成比仍然是15%、5%和80%,人数的调动只是随机误差造成的,公司人员结构没有显著性改变。
2.2 二项分布检验
2.2.1 概述
事件要服从二项分布,则应该具备下列基本的条件。
(1)各观察单位只能具有相互对立的一种结果。
(2)已知发生某一结果(阳性)的概率为π,其对立结果的概率为1-π。
(3)n次试验在相同条件下进行,且各个观察单位的观察结果相互独立,即每个观察单位的观察结果不会影响到其他观察单位的结果。
SPSS二项分布检验过程是推断总体的分布是否等于指定的某个二项分布。其假设检验过程如下。
H0:样本来自的总体与某个指定的二项分布无显著性差异。
H1:样本来自的总体与某个指定的二项分布有显著性差异。
SPSS会自动计算出二项分布检验相应的检验统计量及对应的概率P值。如果概率P值小于或等于用户设定的显著性水平,则拒绝零假设,认为总体与某个指定的二项分布有显著性差异;相反的,如果概率P值大于显著性水平,则接受零假设。
需要注意的是,二项分布检验过程要求变量必须是数值型的二元变量(只取两个可能值的变量)。假如变量是字符型的,可以使用重编码功能将其转化为数值型变量;假如变量不是二元变量,需要设置断点将数据分为两个部分,将大于断点值的归为一组,其余归为另一组。
2.2.2 操作流程
Step01:打开主菜单
选择菜单栏中的【Analyze(分析)】 →【Nonparametric Tests(非参数检验)】→【Legacy Dialogs(旧对话框)】→【Binomial(二项式)】命令 ,弹出【Binomial Test(二项式检验)】对话框。
Step02:选择检验变量
在【Binomial Test(二项式检验)】对话框左侧的候选变量列表框中选择