2.2 调查方法
2.2.1 概率抽样和非概率抽样
在数据采集阶段,统计学家面临的一个关键问题是如何抽选出一个好的样本。好的样本都是相对而言的,相对包括两方面的含义:
- 一个含义是针对研究问题而言的。不同的研究问题,对样本的要求会有所差别。
- 对某一个研究问题,这可能是一个不错的样本;对另一个研究问题,这个样本可能就是糟糕的。
- 例如,如果研究顾客的满意度,样本就应当来自该产品的用户,而如果要了解消费者对该产品的购买意愿,样本就应该取自所有潜在的购买者。
- 所以,进行什么样的抽样设计首先取决于研究目的。
- 另一个含义是针对调查费用与估计精度的关系而言的。
- 进行数据搜集总要投入一定的调查费用,调查也希望获得更多高质量数据。
- 但两者往往是矛盾的,一个好的样本应当具有最好的性能价格比,即在相同费用的条件下,获得数据的估计精度最高;或在相同估计精度的条件下,调查成本最低。
使用抽样采集数据的具体方式有许多种,可以将这些方式分为两类:概率抽样和非概率抽样。
1. 概率抽样
概率抽样(probability sampling)也称随机抽样,是指遵循 随机原则 进行的抽样,总体中每个单位都有一定的机会被选入样本。它具有以下几个特点:
- 首先,抽样时按一定的概率以随机原则抽取样本。
- 所谓随机原则,就是在抽样时排除主观意识地抽取调查单位。
- 随机不等于随便,随机有严格的科学含义,可以用概率来描述;随便则带有人为主观的因素。例如,要在一栋楼抽取10位居民作为样本,
- 若采用随机原则,就需要事先将居住在该楼的居民按某种顺序编号,通过一定的随机化程序,如使用随机数字表,抽取出样本,这样可以保证每位居民都有一定机会被被选中;
- 若调查人员站在楼前,将最先走到楼外的10位居民选入样本,这就是随便而不是随机,这种方法不能使该楼的所有居民都有一定机会被选中,已经在楼外的人和调查时段不外出的人不可能被选中。
- 随机与随便的本质区别在于,是否按照给定的入样概率,通过一定的随机化程序抽取样本单元。
- 其次,每个单位被抽中的概率是已知的,或是可以计算出来。
- 最后,当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率。这就是说,估计量不仅与样本的观测值(观察值)有关,也与其入样概率有关。
- 需要提及的是,概率抽样与等概率抽样是两个不同的概念。
- 当我们谈到概率抽样时,是指总体中的每个单位都有一定的非零概率被抽中,单位之间的概率可以相等,也可以不等。
- 若是前者,称为等概率抽样;若是后者,称为不等概率抽样。
调查实践中经常采用的概率抽样方式有以下几种:
- 简单随机抽样
- 进行概率抽样需要抽样框,抽样框(sampling frame)通常包括所有总体单位的信息,如企业和名录(抽选企业)、学生名册(抽选学生)、住户门牌号码(抽选住户)等。
- 抽样框的作用不仅在于提供备选单位名单进行抽选,它还是计算各个单位入样概率的依据。
- 简单随机抽样(simple random sampling)就是从包括总体N个单位的抽样框中随机地、一个个地抽取 n n n个单位作为样本,每个单位的入样概率是相等的。
- 抽样的随机性是通过抽样的随机化程序体现的,可以用随机数字表,也可以使用能产生符合要求的随机数序列的计算机程序。
- 方法一:根据总体单位个数 N N N的位数决定在随机数字表中抽取几列,如 N = 678 N=678 N=678,要抽取 n = 5 n=5 n=5的样本,这使 N N N为 3 3 3位数,则在随机数字表中随机抽取 3 3 3列,顺序往下,选出头 5 5 5个 001 ∼ 678 001\sim678 001∼678之间互不相同的数,如果这 3 3 3列随机数字不够,可另随机选其他 3 3 3列继续,知道抽满 n n n个单位为止。
- 方法二:当首位数比较小时,方法一的执行效率可能不高。假设 N = 327 N=327 N=327,首位数是 3 3 3,比较小。按方法一,在随机数字表中抽选 001 ∼ 327 001\sim327 001∼327范围内的数字,若在随机数字表中抽到 486 486 486,在 001 ∼ 327 001\sim327 001∼327范围外,只好遗弃,比较可惜。这时可采用余数入样的方法,即 486 ÷ 327 486\div327 486÷327,商为 1 1 1,余数为 159 159 159,则第 159 159 159个单位被抽中,以此类推。
- 简单随机抽样是一种最基本的抽样方法,是其他抽样方法的基础。这种方法的突出特点是简单、直观,在抽样框完整时,可以直接抽取样本,由于抽选概率相同,用样本统计量对目标量进行估计及计算估计量误差都比较方便。
- 但简单随机抽样也有一些局限性:
- 首先,要求将包含所有总体单位作为抽样框,当 N N N很大时,构造这样的抽样框并不容易;
- 其次,这种方法抽出的单位很分散,给实施调查增加了困难;
- 最后,这种方法没有利用其他辅助信息以提高估计的效率。
- 所以,在规模较大的调查中,一般是把这种方法和其他抽样方法结合使用。
- 分层抽样
- 分层抽样(stratified sampling)是将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。
- 将各层的样本结合起来,对总体的目标量进行估计。
- 优点:保证了样本中包含各种特征的抽样单位,样本结构与总体结构比较相近,提高了估计精度;在一定条件下为实施调查提供了方便(当层是按照行业或行政区划分时);既可以估计总体参数,也可以估计各层的目标量等。
- 整群抽样
- 将总体中若干个单位合并为组,这样的组称为群。
- 整群抽样(cluster sampling)是指在抽样时直接抽取群,然后对中选群中的所有单位全部实施调查。
- 特点:抽取样本时只需要群的抽样框,而不必要求抽样框包括所有单位,大大简化了工作量;其次,群通常由那些地理位置邻近的或隶属于同一系统的单位所构成,调查地点相对集中,节省了调查费用,方便了调查实施。
- 缺陷:估计精度较差,由于同一群内的单位或多或少有些相似,在样本量相同的条件下,整群抽样的抽样误差通常比较大。
- 一般来说,要得到与简单随机抽样相同的精度,采用整群抽样需要增加基本调查单位。
- 系统抽样
- 系统抽样(systematic sampling)是将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机抽取一个单位作为初始单位,然后按照事先制定好的规则确定其他样本单位。
- 典型的系统抽样是先从数字 1 ∼ k 1\sim k 1∼k中随机抽取一个数字 r r r作为初始单位,以后依次取 r + k , r + 2 k r+k,r+2k r+k,r+2k, ⋅ ⋅ ⋅ ··· ⋅⋅⋅。可以把系统抽样看作是将总体内的单位按顺序分成 k k k群,用相同概率抽取出一群的方法。
- 主要优点是操作简便,如果由辅助信息,对总体内的单位进行有组织的排列,可以有效地提高估计的精度。
- 缺点是对估计量方差的估计比较困难。
- 多阶段抽样
- 多阶段抽样采用类似整群抽样的方法,首先抽取群,但并不是调查群内的所有单位,而是再进一步抽样,从选中的群中抽取出若干个单位进行调查。由于需要两个步骤,所以将这种抽样方式称为二阶段抽样。这里,群是初级单位,第二阶段抽取的是最终抽样单位。
- 将上面方法推广,使抽样的阶段数增多,就称为多阶段抽样(multi-stage sampling)。例如第一阶段抽取初级单位,第二阶段抽取二级单位,第三阶段抽取调查的最终单位就是三阶段抽样,同样的方法还可以定义四阶段抽样。
- 不过,即便是大规模的抽样调查,抽取样本的阶段也应当尽可能少。因为没增加一个阶段就会增加一份估计误差,用样本对总体进行估计也就更复杂。
- 多阶段抽样有整群抽样的优点,它保证了样本相对集中,节约了费用;不需要包含所有低阶段抽样单位的抽样框;由于实行再抽样,使调查单位在更广的范围内展开。
- 在较大规模的抽样调查中,多阶段抽样是经常采用的方法。
以上介绍了几种常见的概率抽样方式。概率抽样最主要的优点是,可以依据调查结果计算估计量误差,从而得到对总体目标量进行推断的可靠程度。从另一方面讲,也可以按照要求的精确度,计算必要的样本单位数目。
所以,统计分析的样本主要是概率样本,即样本是采用概率抽样方式得到的。
2. 非概率抽样
非概率抽样(non-probability sampling)是相对于概率抽样而言的,指抽取样本时不是依据 随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。
非概率抽样的方式有很多,可以归为以下几种类型:
- 方便抽样
- 调查过程中依据方便的原则,自行确定作为样本的单位。
- 例如,调查员在街头、公园、商店等公共场所进行拦截式的调查;厂家在出售产品的柜台前对路过的顾客进行调查等。
- 方便抽样的特点是容易实施,调查成本低。
- 缺点是样本单位的确定带有随意性,因此,方便样本无法代表有明确定义的总体,将方便样本的调查结果推广到总体是没有任何意义的。
- 因此,如果研究的目的是对总体有关的参数进行推断,使用方便抽样是不合适的。
- 在研究科学中,方便抽样可以产生一些想法以及对研究内容的初步认识,或建立假设。
- 判断抽样
- 判断抽样是另一种比较方便的抽样方式,是指研究人员根据经验、判断和对研究对象的了解,有目的地选择一些单位作为样本,实施时根据不同的目的有 重点抽样、典型抽样、代表抽样 等方式。
- 重点抽样是从调查对象的全部单位中选择少数重点单位,对其实施调查。这些重点单位的数量虽然不多,但在总体中地位重要。
- 例如,要了解全国钢铁企业的生产状况,可以选择产量较大的几个钢铁企业,如宝钢,鞍钢,首钢等,对这些重点单位进行调查,就可以了解钢铁产量的大致情况及产量变化的基本走势。
- 典型抽样是从总体中选择若干个典型的单位进行深入的调研,目的是通过典型单位来描述或揭示所研究问题的本质和规律,因此选择的典型单位应该具有研究问题的本质或特征。
- 例如,研究青少年犯罪问题,可以选择一些典型的犯人,对其做深入细致的调查,掌握大量一手资料,进而分析青少年犯罪的一般规律。
- 代表抽样是通过分析选择具有代表性的单位作为样本,在某种程度上,也具有典型抽样的含义。
- 例如,某奶粉生产企业欲了解消费者对奶粉成分的需求,可以调查一些年轻的母亲,因为她们购买奶粉的数量较大,对奶粉的成分有更高的要求,通过她们可以了解消费者购买奶粉时的意向。
- 判断抽样时主观的,样本选择的好坏取决于调研者的判断、经验、专业程度和创造性。
- 这种方式的抽样成本比较低,也容易操作,但由于样本是认为确定的,没有依据随机原则,因而调查结果不能用于对总体有关参数进行估计。
- 自愿样本
- 自愿样本指被调查者自愿参加,成为样本中的一份子,向调查人员提供有关信息。
- 例如,参与报刊和互联网上登刊的调查问卷活动,向某类节目拨打热线电话等,都属于自愿样本。
- 自愿样本与抽样的随机性无关,样本的组成往往集中于某类特定的人群,尤其集中于对该调查活动感兴趣的人群,因此这种样本是有偏的。
- 我们不能依据样本的信息对总体的状况进行估计,但自愿样本可以给研究人员提供许多有价值的信息,可以反映某类群体的一般看法。
- 滚雪球抽样
- 滚雪球抽样往往用于对稀少群体的调查。
- 在滚雪球抽样中,首先选择一组调查单位,对其实施调查之后,再请他们提供另外一些属于研究总体的调查对象,调查人员根据所提供的线索,继续进行调查。这个过程持续下去,就会形成滚雪球效应。
- 例如,欲对冬泳爱好者进行某项调查,调查人员首先找到若干名冬泳爱好者,然后通过他们找到更多的冬泳爱好者。
- 滚雪球抽样也属于非概率抽样,因为与随机抽取的被调查者相比,被推荐的被调查者在许多方面与推荐他们的那些人更为相似。
- 滚雪球抽样的主要优点是容易找到属于特定群体的被调查者,调查的成本也比较低。它适合对特定群体进行资料搜集和研究。
- 配额抽样
- 配额抽样类似于概率抽样中的分层抽样,在市场调查中有广泛的应用。
- 它是首先将总体中的所有单位按一定的标志(变量)分为若干类,然后在每个类中采用方便抽样或判断抽样的方式选取样本单位。
- 这种抽样方式操作比较简单,而且可以保证总体中不同类别的单位都能包括在所抽的样本中,使得样本的结构和总体的结构类似。
- 因为在抽取具体样本单位时并不是依据随机原则,所以它属于非概率抽样。
- 在配额抽样中,可以按单一变量控制。例如,在一个城市中采用配额抽样抽出一个 n = 500 n=500 n=500的样本。控制变量有年龄和性别,配额是按单个变量分别分配的,如各个年龄段上的配额或性别的配额。这种单一变量配额控制的抽样操作比较简便,但有可能出现偏斜。
- 在配额抽样中,也可以按交叉变量控制,即多个变量同时控制。交叉变量配额控制可以保证样本的分布更为均匀,但现场调查中为了保证配额额实现,尤其是在调查接近结束时所选的样本单位要同时满足特定的配额,操作的难度可能要更大一些。
3. 概率抽样与非概率抽样的比较
概率抽样与非概率抽样是性质不同的两种抽样类型,在调查中采用何种抽样类型取决于多种因素,包括研究问题的性质、使用数据要说明的问题、调查对象的特征、调查费用、时间等。
非概率抽样不依据随机原则抽选样本,所以统本统计量分布是不确切的,因而无法使用样本的结果对总体相应参数进行推断。
- 如果调查的目标是用样本的调查结果对总体相应参数进行估计,并计算估计的误差,得到总体参数的置信区间,这时就不适合采用非概率抽样。
- 非概率抽样的特点是操作简便、时效快、成本低,而且对于抽样中的统计专业技术要求不是很高。
- 非概率抽样适合探索性的研究,调查的结果用于发现问题,为更深入的数量分析做准备。
- 非概率抽样也适合市场调查中的概念测试,如产品包装测试、广告测试等。
概率抽样依据随机原则抽选样本,这时样本统计量的理论分布是存在的,因此可以根据样本的调查结果对总体相应参数进行推断,计算估计误差,得到总体参数的置信区间,并且可以在进行抽样设计时对估计的精度提出要求,计算为满足特定精度要求所需要的样本量。
- 所以,如果调查的目的在于掌握研究对象总体的数量特征,得到总体参数的置信区间,就应当使用概率抽样。
- 当然,概率抽样的技术含量更高,无论是抽选样本还是对调查数据进行分析,都要求有较高的统计学专业知识,调查成本也比非概率抽样高。
有时在一个研究项目中,也可以把概率抽样和非概率抽样相结合,发挥各自优点,满足研究中的不同需求。
鉴于概率抽样对统计学专业知识要求较高,故本系列后面对统计方法的讨论中,若无特别说明,均假定数据取自概率抽样。
2.2.2 搜集数据的基本方法
样本单位确定之后,对这些单位实施调查,即从样本单位那里得到所需要的数据,可以采用不同的方法。搜集数据的基本方法有以下几种:
- 自填式
- 自填式是指在没有调查员协助的情况下由被调查者自己填写,完成调查问卷。
- 面访式
- 面访式是指现场调查中调查员与被调查者面对面,调查员提问、被调查者回答这种调查方式。
- 电话式
- 电话式是指调查人员通过打电话的方式向被调查者实施调查。
- 数据搜集方法的选择
- 搜集数据的不同方法各有特点,在选择数据搜集方法时,需要考虑以下几个问题:
- 抽样框中的有关信息
- 目标总体的特征
- 调查问题的内容
- 有形辅助物的使用
- 实施调查的资源
- 管理与控制
- 质量要求
三种搜集数据的方法特点如下表所示:
项目 | 自填式 | 面访式 | 电话式 |
---|---|---|---|
调查时间 | 慢 | 中等 | 快 |
调查费用 | 低 | 高 | 低 |
问卷难度 | 要求容易 | 可以复杂 | 要求容易 |
有形辅助物的使用 | 中等利用 | 充分利用 | 无法利用 |
调查过程控制 | 简单 | 复杂 | 容易 |
调查员作用的发挥 | 无法发挥 | 充分发挥 | 一般发挥 |
回答率 | 最低 | 较高 | 一般 |
由此可知,没有哪一种方法在所有方面都是最好的,因此,在数据搜集使用方法的选择中要根据调查所需信息的性质、调查对象的特点、对数据质量和回答率的要求,以及预算费用和时间要求等多方面因素综合而定。
也许没有一种方法是适用的,这时就要考虑研究人员对数据需求的最主要方面。
需要说明的是,各种方法并不是相互排斥的;相反,在许多方面恰恰是相互补充的,因此,在一项调研活动中将各种方法结合起来使用也许是不错的选择。
例如,对被选中的调查单位首先采用邮寄问卷,让受访者自填的方式,对没有返回问卷的受访者,再进行电话追访或面访。
总结
本篇主要讲
调查方法
,觉得笔者写得不错的可以点点关注,谢谢大家咯,一起努力,hhh~~。