显著性水平、置信区间、假设检验与方差分析相关知识点总结
参数说明
- p-value:p值,即某件事情发生的概率
- α:显著性水平
- β:本文中一般指假设检验的第二类错误的概率
- Pr(M):置信区间
- σ2:本文中一般指总体方差
- s2:本文中一般指样本方差
- μ:本文中一般指总体平均值
- X:本文中一般指样本平均值
- H0:原假设,H0值等
- H1:备择假设
- t:t检验、T分布、t值等
- F:F检验、F分布、F值等
- z:z检验、z分布、z值等
- ✘2:卡方检验、卡方分布、卡方值等
- n:样本长度
显著性水平
显著性水平(通常用α表示)是在进行假设检验时事先确定一个可允许的概率作为判断界限的小概率标准。检验中,依据显著性水平大小把概率划分为二个区间,小于给定标准的概率区间称为拒绝区间,大于这个标准则为接受区间。事件属于接受区间,原假设成立而无显著性差异;事件属于拒绝区间,拒绝原假设而认为有显著性差异。
通俗来讲,显著水平表示的是一个标准,即表示判断界限的小概率标准,往往显著性水平存在一定的人为因素,通常作为标准的小概率有0.1、0.05、0.01。有时人们也会使用显著性水平来检验假设是否成立,而用到的便是小概率事件。我们一般认为p-value≤0.05就可以认为假设是不成立的。0.05这个标准就是显著水平,当然选择多少作为显著水平也是主观的。
对显著水平的理解必须把握以下二点:
- 显著性水平不是一个固定不变的数值,依据拒绝区间所可能承担的风险来决定。
- 统计上所讲的显著性与实际生活工作中的显著性是不一样的。
显著性水平检验
显著性水平检验属于假设检验的一种,应用的原理便是上面所说的显著性水平的原理,首先确定一个标准(即判断界限的小概率标准),一般取0.05(与后续的95%置信区间相对应)。当某个事件的发生概率小于这个概率时,事件属于拒绝区间,该事件具有显著性差异,拒绝原假设,即假设不成立。
置信区间
- 置信区间是指由样本统计量所构造的总体参数的估计区间。在统计学中,一个概率样本的置信区间是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度,其给出的是被测量参数的测量值的可信程度,即前面所要求的“一个概率”。就拿捕鱼来说,一网下去,我知道里面有多少比例的鱼是我想要的鱼。
- 点估计与区间估计:
- 点估计:点估计是用样本统计量来估计总体参数,因为样本统计量为数轴上某一点值,估计的结果也以一个点的数值表示,所以称为点估计。比如买彩票,你买了5号,那么就意味着你猜测5号一定会中奖。
- 区间估计:区间估计是在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。与点估计不同,进行区间估计时,根据样本统计量的抽样分布可以对样本统计量与总体参数的接近程度给出一个概率度量。仍然是上面的买彩票,你觉得中奖号在5号左右,然后你买了1号到10号10张彩票,那么就意味着你猜测着1号到10张中的某一张会中奖,使用的是点估计加减估计误差,很显然区间估计比点估计更准确。
- 计算公式:Pr(c1<=μ<=c2)=1-α,其中α为显著性水平。
- 95%置信区间:通常使用的较多的是95%置信区间,对应的α为0.05。一个样本服从X~N(μ,σ2)分布,其中μ为样本均值,σ2为样本方差;其95%置信区间可以按照如下方式计算(公式中1.96就是α=0.05时对应的标准值):
假设检验
- 假设检验:指事先对总体参数或分布形式作出某种假设,然后利用样本信息来判断原假设是否成立,通常具有①采用逻辑上的反证法,②依据统计上的小概率原理等特点。
- 假设检验的分类:
- 参数检验:参数检验指当总体分布已知的情况下,根据样本数据对总体分布的统计参数(如均值、方差等)进行推断,常用的参数检验有t检验、f检验、Z检验等;
- 非参数检验:非参数检验指当总体分布未知的情况下,根据样本数据对总体的分布形式或特征进行推断,常用的非参数检验有卡方检验、秩和检验等。
- 两类错误:
- 第Ⅰ类错误(弃真错误):原假设为真时拒绝原假设,第一类错误的概率为α(α即显著性水平);
- 第Ⅱ类错误 (取伪错误):原假设为假时接受原假设,第二类错误的概率为β。
H0是真实的 | H0是不真实的 | |
---|---|---|
拒绝H0 | 第Ⅰ类错误(α) | 正确 |
接受H0 | 正确 | 第Ⅱ类错误( β) |
- 两类错误的关系:α越大β越小,α越小β越大,因此无法同时减少两类错误,通常我们都是力求控制α的情况下减小β。
- 假设检验的基本步骤:
- 提出原假设和备择假设
- 确定适当的检验统计量
- 规定显著性水平α
- 计算检验统计量的值
- 作出统计决策
- 原假设与备择假设
- 原假设:待检验的假设,又称“0假设”,表示为H0,通常在假设中包含等号如=,≤,≥等;
- 备择假设:与原假设的对立的假设,表示为H1,通常在假设中包含不等号如≠,<,>等;
- 双侧检验与单侧检验
- 双侧检验(双尾检验):只强调差异不强调方向性(比如大小,多少)的检验叫双尾检验。如检验样本和总体均值有无差异, 或样本数之间有没有差异,采取双侧检验。双侧检验的相关信息表示如下:
- 单侧检验(单尾检验):强调某一方向的检验叫单尾检验。如当要检验的是样本所取的总体参数值大于或小于某个特定值时,采用单侧检验。单侧检验的相关信息表示如下:
- 区别对比:
①双侧检验只关心两个总体参数之间是否有差异,而不关心谁大谁小;单侧检验则强调差异的方向性,即关心研究对象是高于还是低于某一总体水平。
②如果不清楚后测数据是否高于前测数据,研究目的是想判断前后测的均值是否不同,就需要用双尾检验;如果后测数据不可能低于前测数据,研究目的是仅仅想知道后测数据是不是高于前测数据,则可以采用单尾检验。
③双侧检验的研究假设是检验两参数之间是否有差异,零假设 H0: u1= u0,备择假设:H1:u1≠ u0;单侧检验的研究假设中有一参数和另一参数方向性的比较,比如"大于"(或“小于”)等。
-
简单举例:
在某次乒乓球赛中,对手提议通过抛硬币来决定谁先发球,“花”面朝上则对手先发球,反之则我。此时我认为这枚硬币是不公平的,而对手却说这枚硬币是公平的。这时我们可通过假设检验来验证这枚硬币是否公平。假设 :这枚硬币是公平的
检验 :抛十次硬币,看是否符合假设。反复抛硬币符合二项分布X∼B(n,μ),其中n代表扔硬币的次数,μ代表“花”朝上的概率。在硬币是公平的前提下,扔10次硬币应该符合以下分布:X∼B(10,0.5)。
总共扔了两次,都是“花”朝上,虽然几率是0.5x0.5 = 0.25,但是也正常,继续扔;总共扔了四次,也都是“花”朝上,几率是0.54=0.0625,感觉有点不正常,但是万一是运气呢?继续扔;总共扔了十次,也都是“花”朝上,那我就认为很可能你这枚硬币不是公平的。
那么当我们抛10次硬币,当出现多少次“花”面朝上就可以认为该硬币是不公平的,这是一个客观的判断,我们可结合显著性水平检验来判断。例如,我们可以计算抛10次硬币出现9次“花”面朝上的概率来检验我们的假设是否成立,这一事件的概率为P(9≤X≤10)=0.01≤0.05,表示出来如下图所示:
该事件属于显著性检验的拒绝区间,有显著性差异,拒绝原假设,即该硬币不公平。如果扔10次出现出现8次正面:P(8≤X≤10)=0.05,这个和我们的显著水平是一样的,我们也可以拒绝假设,只是没有那么“显著”了。综上所述,当需要检验一枚硬币是否公平时,可以连续抛十次,当出现八次以上的“花”面朝上就可以认为该硬币是不公平的。
参数检验
参数检验的定义前面已介绍了,这里主要看一下几种常用的参数检验,包括t检验、f检验和z检验。
F检验
- F检验(也称方差比率检验、方差齐性检验)是一种在零假设之下,统计值服从F-分布的检验。其通常是用来分析用了超过一个参数的统计模型,以判断该模型中的全部或一部分参数是否适合用来估计母体。F检验可以用于三组或者多组之间的均值比较,但是F检验对于数据的正态性非常敏感,如果被检验的数据无法满足均是正态分布的条件时,该数据的稳健型会大打折扣,特别是当显著性水平比较低时。但是,如果数据符合正态分布,而且α至少为0.05,该检验的稳健型还是相当可靠的。
- F检验的主要用途有①方差齐性检验,②方差分析,③线性回归方程整体的显著性检验。这里主要说一下第一点。方差齐性是方差分析和一些均数比较t检验的重要前提,利用[公式]检验进行方差齐性检验是最原始的,但对数据要求比较高,它要求样本来自两个独立的、服从正态分布的总体。方差齐性检验的 F 值计算方法如下:
一般约定取较大的方差作为分子,较小的方差作为分母,计算出的F值与理论F值进行比较并得出结论。
t检验
- 主要用于样本含量较小(通常n < 30),总体标准差σ未知的正态分布,那么此时一切可能的样本平均数与总体平均数的离差统计量呈t分布。t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。
- t检验有以下三种方法(选取哪种t检验方法是由数据特点和结果要求来决定的):
- 单一样本T检验(One-Sample T Test):用来比较一组数据的平均值和一个数值有无差异。例如,你选取了5个人,测定了他们的身高,要看这五个人的身高平均值是否高于、低于还是等于1.70m,就需要用这个检验方法。
- 独立样本T检验(Independent-Sample T Test):用来看两组数据的平均值有无差异。比如,你选取了5男5女,想看男女之间身高有无差异,这样,男的一组,女的一组,这两个组之间的身高平均值的大小比较可用这种方法。
- 配对样本T检验(Paired-Sample T Test):用来看一组样本在处理前后的平均值有无差异。比如,你选取了5个人,分别在饭前和饭后测量了他们的体重,想检测吃饭对他们的体重有无影响,就需要用这个t检验。注意,配对样本t检验要求严格配对,也就是说,每一个人的饭前体重和饭后体重构成一对。
- t检验分为单总体t检验和双总体t检验:
- 单总体t检验:检验一个样本平均数与一已知的总体平均数的差异是否显著。当总体分布是正态分布,如总体标准差σ未知且样本容量n<30,那么样本平均数与总体平均数的离差统计量呈t分布。检验统计量为:
如果样本属于大样本(n>30)也可以写成:
其中,t为样本平均数与总体平均数的离差统计量;X为样本平均数;μ为总体平均数;σx为样本标准差;n为样本容量。 - 双总体t检验 :检验两个样本平均数与其各自所代表的总体的差异是否显著。双总体t检验又分为两种情况,一是相关样本平均数差异的显著性检验,用于检验匹配而成的两组被试获得的数据或同组被试在不同条件下所获得的数据的差异性,这两种情况组成的样本即为相关样本。二是独立样本平均数的显著性检验。各实验处理组之间毫无相关存在,即为独立样本。该检验用于检验两组非相关样本被试所获得的数据的差异性。相关样本的t检验公式为:
其中,X1,X2分别为两样本平均数;σx12,σx22分别为两样本方差;y为相关样本的相关系数。
Z检验
- Z检验(在国内一般叫U检验)就是用服从正态分布N(0,1)的统计量Z来进行显著性检验。使用这种检验方法,必须先知道总体的方差σ2;Z检验一般用于大样本(即大于30)平均值差异性检验的方法,它是用标准的理论来推断差异发生的概率,从而比较两个的差异是否显著;当已知标准差时,验证一组数的均值是否与某个值相等时,用Z检验。
- 原理:Z检验是通过计算两个平均数之间差的Z分数来与规定的理论Z值相比较,看是否大于规定的理论Z值,从而判定两平均数的差异是否显著的一种差异显著性检验方法。
- 一般步骤:
- 建立虚无假设H0:μ1=μ2,即先假定两个平均数之间没有显著差异;
- 计算Z值,对于不同类型的问题选用不同的计算方式:
① 检验一个样本平均数(x)与一个已知的总体平均数(μ0)的差异是否显着。其Z值计算公式为:
② 检验两组样本平均数的差异性,从而判断它们各自代表的总体的差异是否显着。Z值计算公式为:
- 比较计算所得Z值与理论Z值,推断发生的概率,依据Z值与差异显着性关系表作出判断。
Z值 | p值 | 差异程度 |
---|---|---|
≥2.58 | ≤0.01 | 非常显著 |
≥1.96 | ≤0.05 | 显著 |
≤1.96 | ≥0.05 | 不显著 |
非参数检验
卡方检验(✘2检验)
- 卡方检验是一种用途很广的计数资料的假设检验方法,主要是比较两个及两个以上样本率(构成比)以及两个分类变量的关联性分析。根本思想在于比较理论频数和实际频数的吻合程度或者拟合优度问题,应用主要有①两个率或两个构成比比较的卡方检验;②多个率或多个构成比比较的卡方检验以及分类资料的相关分析。
- 卡方检验计算原理:
其中:A是实际值,T为理论值,x2表示理论值与实际值的差异程度。
然后查询卡方分布的临界值,将计算的值与临界值比较,如果x2 <临界值,则假设成立。
查询临界值就需要知道自由度:V =(行数-1)*(列数-1),根据算出的V查询卡方分布表。 - 举例:例如想知道喝牛奶对感冒发病率有没有影响(下表中括号内的为理论人数)。
感冒人数 | 未感冒人数 | 合计 | 感冒率 | |
---|---|---|---|---|
喝牛奶组 | 43(39.3231) | 96(99.6769) | 139 | 30.94% |
不喝牛奶组 | 28(31.6848) | 84(80.3152) | 112 | 25.00% |
合计 | 71 | 180 | 251 | 28.29% |
喝牛奶组和不喝牛奶组的感冒率为30.94%和25.00%,两者的差别可能是抽样误差导致,也可能是 牛奶对感冒率真的有影响。 |
下面进行假设:假设喝牛奶对感冒发病率没有影响,即喝牛奶与感冒无关,所以感冒的发病率实际是(43+28)/(43+28+96+84)=28.29%。
根据上面的公式计算出x2=1.077,对于该问题V=1,查询可得临界值为3.84,x2=1.077<3.84,假设成立,即喝牛奶与感冒无关。
秩和检验
- 秩和检验又称顺序和检验,它不依赖于总体分布的具体形式,应用时可以不考虑被研究对象为何种分布以及分布是否以知,因而实用性较强,这种方法主要用于比较两个独立样本(两个样本可以不等长)的差异。
- 秩和检验的优缺点:
- 优点:不受总体分布限制,适用面广;适用于等级资料及两端无确定值的资料;易于理解,易于计算。
- 秩和检验的缺点:符合参数检验的资料,用秩和检验,则不能充分利用信息,检验功效低。
- 适用范围:两个样本来自两个独立的但非正态获形态不清的两总体,要检验两样本之间的差异是否显著,不应运用参数检验中的t+检验,而需采用秩和检验。
- 两样本的容量长度均小于10的检验步骤:
- 将两个样本数据混合并由小到大进行等级排列(最小的数据秩次编为1,最大的数据秩次编为n1+n2);
- 把容量较小的样本中各数据的等级相加,即秩和,用T表示。
- 把T值与秩和检验表中 α 显著性水平下的临界值相比较,如果 T1 < T < T2,则两样本差异不显著;如果 T ≤ T1或 T ≥ T2,则表明两样本差异显著(T1 、 T2分别为两个样本长度对应的秩和检验表中 α 显著性水平下的值)。
- 【例】某年级随机抽取6名男生和8名女生的英语考试成绩如下表所示。问该年级男女生的英语成绩是否存在显著差异?
①建立假设:
H0:男女生的英语成绩不存在显著差异;
H1:男女生的英语成绩存在显著差异。
②编排秩序,求秩和T:T= 62.5;
③推断与结论:根据 n1 = 6, n2 = 8,α = 0.05查秩和表等检验的上下限位T1 = 29,T2 = 61;有T>T2,所以拒绝原假设,即男女生的英语成绩存在显著差异。 - 两样本的容量长度均大于10的检验步骤:
当两个样本容量都大于10时,秩和 T 的分布接近于正态分布,因此可以用Z检验,其基本公式为:
【例】还是前面的例子,不过这一次检验的是12个男生和14个女生,成绩如下表所示:
①建立假设:
H0:男女生的英语成绩不存在显著差异;
H1:男女生的英语成绩存在显著差异。
②编排秩序,求秩和: n1 = 12, n2 = 14,T= 144.5,将 T 带入公式算 Z 值得Z = -0.9;
③推断与结论:α = 0.05,查表得 Zα = 1.96,|Z| < Zα,所以保留原假设,拒绝备择假设,即男女生的英语成绩不存在显著差异。
常用的假设检验种类及使用的检验方法
- 单总体均值的假设检验
- 总体方差σ2已知:z检验,检验统计量为:
- 总体方差σ2未知:t检验,检验统计量为:
- 双总体均值差的假设检验
- 两总体均是正态分布,两总体方差已知:z检验(n可以小于30),检验统计量为:
- 两总体均是正态分布,两总体方差未知但相等:t检验,检验统计量为:
- 两总体分布未知:z检验(两个样本容量n都需要大于30),检验统计量为:
- 单正态总体方差的假设检验:✘2检验,检验统计量为:
- 双正态总体方差之比的假设检验:F检验,检验统计量为:
- 汇总:
方差分析
对于一到两组数据之间的总体均值的假设检验,使用T检验和Z检验就可实现,而对于两组以上的总体均值的假设检验则需要使用方差分析。当然对于三组及以上之间的总体均值的假设检验也可通过两两组合多次使用T检验和Z检验来实现,只不过比较麻烦,使用方差分析可以大大减少工作量,并且增强假设检验的稳定性。
原理和相关术语
【例】某公司采用四种方式推销其产品。为检验不同方式推销产品的效果,随机抽样得下表,不同的销售方式对销售量有影响吗?
- 方差分析的相关术语:
- 因素(Factor):因素是指所要研究的变量,它可能对因变量产生影响。在【例】中,要分析不同销售方式对销售量是否有影响,所以,销售量是因变量,而销售方式是可能影响销售量的因素。如果方差分析只针对一个因素进行,称为单因素方差分析。如果同时针对多个因素进行,称为多因素方差分析。本章后面也会介绍单因素方差分析和双因素方差分析,它们是方差分析中最常用的。
- 水平(Level):水平指因素的具体表现,如销售的四种方式就是因素的不同取值等级。有时水平是人为划分的,比如质量被评定为好、中、差。
- 单元(Cell):单元指因素水平之间的组合。【例】中销售方式一下的五种不同的销售业绩就构成一个单元。方差分析要求的方差齐性就是指的各个单元间的方差齐性。
- 元素(Element):元素指用于测量因变量的最小单位。一个单元里可以只有一个元素,也可以有多个元素。【例】中各单元中有 5 个元素。
- 均衡(Balance):如果一个试验设计中任一因素各水平在所有单元格中出现的次数相同,且每个单元格内的元素数相同,则称该试验是为均衡,否则,就被称为不均衡。不均衡试验中获得的数据在分析时较为复杂。【例】是均衡的。
- 交互作用(Interaction):如果一个因素的效应大小在另一个因素不同水平下明显不同,则称为两因素间存在交互作用。当存在交互作用时,单纯研究某个因素的作用是没有意义的,必须在另一个因素的不同水平下研究该因素的作用大小。如果所有单元格内都至多只有一个元素,则交互作用无法测出。
-
方差分析的基本原理:将数据总的偏差平方和按照产生的原因分解成:(总的偏差平方和)=(由因素水平引起的偏差平方和)+(试验误差平方和);上式右边两个平方和的相对大小可以说明因素的不同水平是否使得各型号的平均维修时间产生显著性差异,为此需要进行适当的统计假设检验。上例中要看不同推销方式的效果,其实就归结为一个检验问题,设μi为第 i 种推销方式 i(i=1,2,3,4)的平均销售量,即检验原假设μ1=μ2=μ3=μ4是否为真。
从上【例】的表可以观察到,四个均值都不相等,方式二的销售量明显较大。然而,我们并不能简单地根据这种第一印象来否定原假设,而应该分析μ1、μ2、μ3、μ4之间差异的原因。20 个数据各不相同,这种差异可能由两方面的原因引起的:一是推销方式的影响,不同的方式会使人们产生不同消费冲动和购买欲望,从而产生不同的购买行动,这种由不同水平造成的差异,我们称为系统性差异;另一是随机因素的影响,同一种推销方式在不同的工作日销量也会不同,因为来商店的人群数量不一,经济收入不一,当班服务员态度不一,这种由随机因素造成的差异,我们称为随机性差异。
-
两个方面产生的差异用两个方差来计量:
- 组内方差,即水平内部的方差,仅包含随机性差异;
- 组间方差,即μ1、μ2、μ3、μ4之间的总体差异,它既包含系统性差异,也包含随机性差异。
- 进行方差分析,样本通常要符合以下假定:首先是各样本的独立性,即各组观察数据,是从相互独立的总体中抽取的,只有是独立的随机样本,才能保证方差的可加性;其次要求所有观察值都是从正态总体中抽取,且方差相等。
单因素方差分析
-
单因素方差分析的数据结构
单因素方差分析的数据结构一般如下图所示:
在单因素方差分析中,若因素 A 共有 r 个水平,对均衡试验而言,每个水平的样本容量为 k,则共有 kr 个观察值,如上表所示。对不均衡试验,各水平中的样本容量可以是不同的,设第i个样本的容量是ni,则观测值的总个数为:
-
单因素方差分析的步骤
- 建立假设
原假设和备择假设为:
H0:μ1=μ2=μ3=……=μr;
H1:μ1、μ2、μ3、……、μr不全等。 - 构造检验F统计量
方差分析表:
水平的均值:令xi为第 i 水平的样本均值,则
全部观察值的总均值:令x为全部观察值的总均值,则
总离差平方和(SST):反映全部观察值的离散状况,是全部观察值与总平均值的离差平方和计算公式为:
误差项离差平方和(SSE):又称为组内离差平方和,它反映了水平内部观察值的离散情况,即随机因素产生的影响计,算公式为:
水平项离差平方和(SSA):又称组间离差平方和,是各组平均值与总平均值的离差平方和。它既包括随机误差,也包括系统误差,计算公式为:
由于各样本的独立性,使得变差具有可分解性,即总离差平方和等于误差项离差平方和加上水平项离差平方和,用公式表达为:SST = SSE + SSA。
根据方差统计表:F=组间方差 / 组内方差= MSA / MSE=[SSA /(r-1)] / [SSE /(n-r)] - 判断与结论
在假设条件成立时,F统计量服从第一自由度df1为 r-1、第二自由度df2为 n-r 的 F 分布。将统计量 F 与给定的显著性水平α的临界值Fα(r-1,n-r) 比较,可以作出决策,决策图如下:
若 F≥Fα,则拒绝原假设H0,表明均值之间的差异显著,因素 A 对观察值有显著影响;
若 F<Fα,则不能拒绝原假设H0,表明均值之间的差异不显著,因素 A 对观察值没有显著影响。
决策方式:一是用 F 与 F crit 比较,F>F crit,则拒绝原假设;二是用 P-value 与α比较,如果 P-value<α,则拒绝原假设。
- 【例】对以下数据做方差分析,要求判断四种不同的推销方式对销量是否有影响。
当α=0.05时,分析结果如下(每个数值得含义可参考方差分析表):
决策:F>F crit,拒绝原假设,即μ1、μ2、μ3、μ4不全等,四种推销方式对销售量有显著影响。
双因素方差分析
- 双因素方差分析有两种类型:
一种是无交互作用的双因素方差分析,它假定因素 A 和因素 B 的效应之间是相互独立的,不存在相互关系;另一种是有交互作用的方差分析,它假定 A、B 两个因素不是独立的,而是相互起作用的,两个因素同时起作用的结果不是两个因素分别作用的简单相加,两者的结合会产生一个新的效应。 - 无交互作用的双因素方差分析
方差分析表:
(一)数据结构
设两个因素分别是 A 和 B。因素 A 共有 r 个水平,因素 B 共有 s 个水平,无交互作用的双因素方差分析的数据结构如下表所示:
(二)分析步骤
- 分析模型与建立假设
在水平组合(Ai , Bj) 下的试验结果Xij服从 N ( μij , σ2 ),i = 1,2……,r;j = 1,2,……,s,假设这些试验结果相互独立。与单因素方差分析模型相类似, 令 μ 称为一般水平或平均水平,αi = μi - μ 称为因素A在第i个水平下的效应,βj = μj - μ 称为因素 B 在第 j 个水平下的效应。若μij = μ + αi + βj,则称这种方差分析模型为无交互作用的双方差分析模型,此时只需对(Ai , Bj) 的每种组合各做一次试验,观测值记为xij。把原参数μij变换成新参数 αi 和 βj后,无交互作用的双因素方差分析模型为:
两个影响因素的原假设与备择假设如下:
对于因素A,H0A:μ1=μ2=μ3=……=μr;H1A:μ1、μ2、μ3、……、μr不全等。
对于因素B,H0B:μ1=μ2=μ3=……=μs;H1B:μ1、μ2、μ3、……、μs不全等。
我们检验因素 A 是否起作用实际上就是检验各个 αi 是否均为 0,如都为 0,则因素 A 所对应的各组总体均数都相等,即因素 A 的作用不显著;对因素 B,也是这样。因此上述假设等价于:
对于因素A,H0A:α1=α2=α3=……=αr = 0;H1A:μ1、μ2、μ3、……、μr不全为0。
对于因素B,H0B:β1=β2=β3=……=βs = 0;H1B:β1、β2、β3、……、βs不全为0。 - 构造检验统计量
水平的均值:
总均值:
离差平方和的分解:双因素方差分析同样要对总离差平方和 SST 进行分解,SST 分解为三部分:SSA 、SSB和 SSE,以分别反映因素 A 的组间差异、因素 B 的组间差异和随机误差(即组内差异)的离散状况。它们的计算公式分别为:
为检验因素 A 的影响是否显著,采用下面的统计量(相关参数可查看方差分析表):
为检验因素 B 的影响是否显著,采用下面的统计量(相关参数可查看方差分析表):
- 判断与结论
根据给定的显著性水平α在 F 分布表中查找相应的临界值Fα,将统计量 F 与Fα进行比较,作出拒绝或不能拒绝原假设H0的决策。决策方式如下:
当然也可比较P-value与α的大小,原理同上。
【例】某公司想知道产品销售量与销售方式及销售地点是否有关,随机抽样得下表数据,以 α = 0.05 的显著性水平进行检验。
首先针对问题,提出原假设和备择假设:
对于因素A,H0A:μ1=μ2=μ3=μ4;H1A:μ1、μ2、μ3、μ4不全等。
对于因素B,H0B:μ1=μ2=μ3=μ4=μ5;H1B:μ1、μ2、μ3、μ4、μ5不全等。
根据以上步骤得出方差分析结果如下:
结论:
FA ≥ Fα,拒绝原假设H0A,即销售方式对销售量有影响;
FB < Fα,不能拒绝原假设H0B,即销售地点对销售量的影响不显著。
- 有交互作用的双因素方差分析
方差分析表:
(一)数据结构
设两个因素分别是 A 和 B,因素 A 共有 r 个水平,因素 B 共有 s 个水平,在水平组合(Ai , Bj) 下的试验结果Xij服从 N ( μij , σ2 ),i = 1,2……,r;j = 1,2,……,s,假设这些试验结果相互独立。为对两个因素的交互作用进行分析,每个水平组合下至少要进行两次试验,不妨假设在每个水平组合( Ai, Bj) 下重复 t 次试验,每次试验的观测值用χijk表示,k=1,2,……,t ,那么有交互作用的双因素方差分析的数据结构如下表所示:
(二)分析步骤
- 分析模型与建立假设:
与无交互作用双因素方差分析模型一样, 令 μ 称为一般水平或平均水平,αi = μi - μ 称为因素A在第i个水平下的效应,βj = μj - μ 称为因素 B 在第 j 个水平下的效应。若μij ≠ μ + αi + βj,则称这种方差分析模型为有交互作用的双方差分析模型,此时再令γij = μij - μ - αi - βj称为因素 A 的第 i 水平与因素 B 的第 j 水平的交互效应,且满足:
把原参数 μj 变换成新参数 αi、 βj 和 γij 后,有交互作用的双因素方差分析模型为:
这里i = 1,2……,r;j = 1,2,……,s;k=1,2,……,t ;,随机误差 εijk 相互独立,都服从N(0,σ2)的分布。与前面的分析思路相同,我们检验因素 A、因素 B 以及两者的交互效应是否起作用实际上就是检验各个 αi、 βj 和 γ~ij 是否都为 0,故对此模型要检验的假设有有三个:
对于因素A,H0A:α1=α2=α3=……=αr = 0;H1A:μ1、μ2、μ3、……、μr不全为0。
对于因素B,H0B:β1=β2=β3=……=βs = 0;H1B:β1、β2、β3、……、βs不全为0。
对因素 A 和 B 的交互效应:H0C:对一切 i , j 有 γij = 0;H1C:对一切 i , j 有 γij 不全为零。 - 构建检验统计量
水平的均值:
总均值:
离差平方和的分解:与无交互作用的双因素方差分析不同,总离差平方和 SST 将被分解为四个部分:SSA、SSB、SSAB 和 SSE,以分别反映因素 A 的组间差异、因素 B 的组间差异、因素 AB 的交互效应和随机误差的离散状况。它们的计算公式分别表示如下:
构造检验统计量:
①为检验因素 A 的影响是否显著,采用下面的统计量:
②为检验因素 B 的影响是否显著,采用下面的统计量:
③为检验因素 A、B 交互效应的影响是否显著,采用下面的统计量:
(三)判断与结论
根据给定的显著性水平 α 在 F 分布表中查找相应的临界值 Fα,将统计量 F 与 Fα 进行比较,作出拒绝或不能拒绝原假设H0的决策。
若 FA ≥ Fα(r -1,rs(t-1)),则拒绝原假设H0A,表明因素 A 对观察值有显著影响,否则,不能拒绝原假设H0A;
若 FB ≥ F α(s-1,rs(t-1)),则拒绝原假设H0B,表明因素 B 对观察值有显著影响,否则,不能拒绝原假设H0B;
若 FAB ≥ F α ((r-1)(s-1), rs(t-1)),则拒绝原假设H0C,表明因素 A、B 的交互效应对观察值有显著影响,否则,不能拒绝原假设H0C。
当然也可比较P-value与α的大小,原理同上。
【例】电池的板极材料与使用的环境温度对电池的输出电压均有影响。今材料类型与环境温度都取了三个水平,测得输出电压数据如下表所示,问不同材料、不同温度及它们的交互作用对输出电压有无显著影响(α=0.05)。
首先针对问题,提出原假设和备择假设:
对因素 A: H0A : αi = 0;H1A : αi 不全为零(i, j = 1,2,3);
对因素 B: H0B : βj = 0;H1B : βj 不全为零(i, j = 1,2,3);
对因素 A 和 B 的交互效应:H0C : γij = 0;H1C : γij不全为零(i, j = 1,2,3) 。
根据以上分析步骤得出分析结果如下: