统计研究可以分为实验性研究与观测性研究两类。在实验性统计研究中,数据是通过实验产生的。一项实验首先要从确定一个我们感兴趣的变量开始。然后确定并控制一个或多个其他变量,这些其他变量与我们感兴趣的变量是相关的;与此同时,收集这些变量如何影响我们感兴趣的那一个变量的数据。
在观测性研究中,我们经常是通过抽样调查,而不是控制一项实验来获取数据。一些好的设计原则仍然会得到使用,但严格控制一项实验性统计研究往往是不可能的。例如,在一项有关吸烟与肺癌之间关系的研究中,研
究人员不可能为实验性研究的对象指定其是否有吸烟嗜好。研究人员仅限于简单地观察吸烟对那些曾经吸烟的人的影响,以及不吸烟对那些已经不吸烟的人的影响。
三种类型的实验设计:完全随机化设计、随机化区组设计以及析因实验。方差分析( ANOVA)的统计方法能用于现有数据的分析。我们也可使用 ANOVA来分析通过观测性研究得到的数据。
作为实验性统计研究的例子,我们考虑 Chemtech公司遇到的问题。 Chemtech公司开发了一种新的城市供水过滤系统。新过滤系统的部件需要从几家供应商处购买,然后由 Chemtech公司设在南加州哥伦比亚市的工厂装配这些部件。公司的工程部负责确定新过滤系统的最佳装配方法。考虑了各种可能的装配方法后,工程部将范围缩小至三种方法:方法A、方法B及方法C.这些方法在新过滤系统装配步骤的顺序上有所不同。 Chemtech公司的管理人员希望确定,哪种装配方法能使每周生产的过滤系统的数量最多。
在 Chemtech公司的实验中,装配方法是独立变量或因子( factor).因为对应于这个因子有三种装配方法,所以我们说这一实验有三个处理,每个处理( treatment)对应于三种装配方法中的一种。 Chemtech公司的问题是一个单因子实验( single- factor experiment)的实例,该问题只涉及一个定性因子(装配方法).更为复杂的实验可能由多个因子组成,其中有些因子可能是定性的,有些因子可能是定量的。
三种装配方法或处理确定了 Chemtech公司实验的三个总体。一个总体是使用装配方法A的全体工人,第二个总体是使用装配方法B的全体工人,第三个总体是使用装配方法C的全体工人。注意对每个总体,因变量或响应变量( response variable)是每周装配的过滤系统的数量,并且该实验的主要统计目的是,确定三个总体(三种方法)每周所生产的过滤系统的平均数量是否相同。
假设从 Chemtech公司生产车间的全体装配工人中抽取了三名工人组成一个随机样本。用实验设计的术语,三名随机抽取的工人是实验单元( experiment units).我们将在 Chemtech公司的问题中使用的实验设计被称为完全随机化设计( completely ran-domized design).这种类型的设计要求将每一种装配方法或处理随机地指派给一个实验单元或一名工人。例如,方法A可能被随机地指派给第二名工人,指派方法B给第一名工人,指派方法C给第三名工人。如同本例所解释的那样,随机化的概念是所有实验设计的一个重要原则。
注意:这个实验对每个处理只会得到一个装配好的过滤系统的测度或数量。对于每种装配方法,为了得到更多的数据,我们必须重复或复制基本的实验过程。例如,假设我们不是只随机抽取3名工人,而是15名工人,然后对每一个处理随机地指派5名工人。因为每种装配方法都指派给5名工人,因此我们说得到了5个复制。复制的过程是实验设计的另一个重要原则。
收集数据
真正的问题是,观察到的三个样本均值之间的差异是否足够大,以致使我们能够得出结论,对应于三种装配方法的总体均值是不同的。为了用统计术语来描述这一问题,我们引入下列记号。
假设检验
利用方差分析( ANOVA)这一统计方法可以确定,在三个样本均值之间观察到的差异是否足够大到可以拒绝H。
方差分析的假设
1.对每个总体,响应变量服从正态分布。这就意味着在 Chemtech公司的实验中,对于每一种装配方法,每周生产的过滤系统的数量(响应变量)必须服从正态分布。
2.响应变量的方差对所有总体都是相同的。这就意味着在 Chemtech公司的实验中,对于每一种装配方法,每周生产的过滤系统数量的方差必须是相同的。
3.观测值必须是独立的。这就意味着在 Chem