零基础学人工智能之统计学篇(2. 2) -----调查方法

2.2 调查方法

2.2.1 概率抽样和非概率抽样

在数据采集阶段,统计学家面临的一个关键问题是如何抽选出一个好的样本。好的样本都是相对而言的,相对包括两方面的含义:

  • 一个含义是针对研究问题而言的。不同的研究问题,对样本的要求会有所差别。
    • 对某一个研究问题,这可能是一个不错的样本;对另一个研究问题,这个样本可能就是糟糕的。
    • 例如,如果研究顾客的满意度,样本就应当来自该产品的用户,而如果要了解消费者对该产品的购买意愿,样本就应该取自所有潜在的购买者。
    • 所以,进行什么样的抽样设计首先取决于研究目的
  • 另一个含义是针对调查费用与估计精度的关系而言的。
    • 进行数据搜集总要投入一定的调查费用,调查也希望获得更多高质量数据。
    • 但两者往往是矛盾的,一个好的样本应当具有最好的性能价格比,即在相同费用的条件下,获得数据的估计精度最高;或在相同估计精度的条件下,调查成本最低。
      使用抽样采集数据的具体方式有许多种,可以将这些方式分为两类:概率抽样非概率抽样

1. 概率抽样

  概率抽样(probability sampling)也称随机抽样,是指遵循 随机原则 进行的抽样,总体中每个单位都有一定的机会被选入样本。它具有以下几个特点:

  • 首先,抽样时按一定的概率以随机原则抽取样本。
    • 所谓随机原则,就是在抽样时排除主观意识地抽取调查单位。
    • 随机不等于随便,随机有严格的科学含义,可以用概率来描述;随便则带有人为主观的因素。例如,要在一栋楼抽取10位居民作为样本,
      • 若采用随机原则,就需要事先将居住在该楼的居民按某种顺序编号,通过一定的随机化程序,如使用随机数字表,抽取出样本,这样可以保证每位居民都有一定机会被被选中;
      • 若调查人员站在楼前,将最先走到楼外的10位居民选入样本,这就是随便而不是随机,这种方法不能使该楼的所有居民都有一定机会被选中,已经在楼外的人和调查时段不外出的人不可能被选中。
    • 随机与随便的本质区别在于,是否按照给定的入样概率,通过一定的随机化程序抽取样本单元
  • 其次,每个单位被抽中的概率是已知的,或是可以计算出来。
  • 最后,当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率。这就是说,估计量不仅与样本的观测值(观察值)有关,也与其入样概率有关。
  • 需要提及的是,概率抽样与等概率抽样是两个不同的概念
    • 当我们谈到概率抽样时,是指总体中的每个单位都有一定的非零概率被抽中,单位之间的概率可以相等,也可以不等。
    • 若是前者,称为等概率抽样;若是后者,称为不等概率抽样

调查实践中经常采用的概率抽样方式有以下几种:

  1. 简单随机抽样
    • 进行概率抽样需要抽样框,抽样框(sampling frame)通常包括所有总体单位的信息,如企业和名录(抽选企业)、学生名册(抽选学生)、住户门牌号码(抽选住户)等。
    • 抽样框的作用不仅在于提供备选单位名单进行抽选,它还是计算各个单位入样概率的依据。
    • 简单随机抽样(simple random sampling)就是从包括总体N个单位的抽样框中随机地一个个地抽取 n n n个单位作为样本,每个单位的入样概率是相等的。
    • 抽样的随机性是通过抽样的随机化程序体现的,可以用随机数字表,也可以使用能产生符合要求的随机数序列的计算机程序。
      • 方法一:根据总体单位个数 N N N的位数决定在随机数字表中抽取几列,如 N = 678 N=678 N=678,要抽取 n = 5 n=5 n=5的样本,这使 N N N 3 3 3位数,则在随机数字表中随机抽取 3 3 3列,顺序往下,选出头 5 5 5 001 ∼ 678 001\sim678 001678之间互不相同的数,如果这 3 3 3列随机数字不够,可另随机选其他 3 3 3列继续,知道抽满 n n n个单位为止。
      • 方法二:当首位数比较小时,方法一的执行效率可能不高。假设 N = 327 N=327 N=327,首位数是 3 3 3,比较小。按方法一,在随机数字表中抽选 001 ∼ 327 001\sim327 001327范围内的数字,若在随机数字表中抽到 486 486 486,在 001 ∼ 327 001\sim327 001327范围外,只好遗弃,比较可惜。这时可采用余数入样的方法,即 486 ÷ 327 486\div327 486÷327,商为 1 1 1,余数为 159 159 159,则第 159 159 159个单位被抽中,以此类推。
    • 简单随机抽样是一种最基本的抽样方法,是其他抽样方法的基础。这种方法的突出特点是简单、直观,在抽样框完整时,可以直接抽取样本,由于抽选概率相同,用样本统计量对目标量进行估计及计算估计量误差都比较方便。
    • 但简单随机抽样也有一些局限性:
      • 首先,要求将包含所有总体单位作为抽样框,当 N N N很大时,构造这样的抽样框并不容易;
      • 其次,这种方法抽出的单位很分散,给实施调查增加了困难;
      • 最后,这种方法没有利用其他辅助信息以提高估计的效率。
    • 所以,在规模较大的调查中,一般是把这种方法和其他抽样方法结合使用。
  2. 分层抽样
    • 分层抽样(stratified sampling)是将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。
    • 将各层的样本结合起来,对总体的目标量进行估计。
    • 优点:保证了样本中包含各种特征的抽样单位,样本结构与总体结构比较相近,提高了估计精度;在一定条件下为实施调查提供了方便(当层是按照行业或行政区划分时);既可以估计总体参数,也可以估计各层的目标量等。
  3. 整群抽样
    • 将总体中若干个单位合并为组,这样的组称为
    • 整群抽样(cluster sampling)是指在抽样时直接抽取群,然后对中选群中的所有单位全部实施调查。
    • 特点:抽取样本时只需要群的抽样框,而不必要求抽样框包括所有单位,大大简化了工作量;其次,群通常由那些地理位置邻近的或隶属于同一系统的单位所构成,调查地点相对集中,节省了调查费用,方便了调查实施。
    • 缺陷:估计精度较差,由于同一群内的单位或多或少有些相似,在样本量相同的条件下,整群抽样的抽样误差通常比较大。
    • 一般来说,要得到与简单随机抽样相同的精度,采用整群抽样需要增加基本调查单位。
  4. 系统抽样
    • 系统抽样(systematic sampling)是将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机抽取一个单位作为初始单位,然后按照事先制定好的规则确定其他样本单位。
    • 典型的系统抽样是先从数字 1 ∼ k 1\sim k 1k中随机抽取一个数字 r r r作为初始单位,以后依次取 r + k , r + 2 k r+k,r+2k r+k,r+2k ⋅ ⋅ ⋅ ··· ⋅⋅⋅。可以把系统抽样看作是将总体内的单位按顺序分成 k k k群,用相同概率抽取出一群的方法。
    • 主要优点是操作简便,如果由辅助信息,对总体内的单位进行有组织的排列,可以有效地提高估计的精度。
    • 缺点是对估计量方差的估计比较困难。
  5. 多阶段抽样
    • 多阶段抽样采用类似整群抽样的方法,首先抽取群,但并不是调查群内的所有单位,而是再进一步抽样,从选中的群中抽取出若干个单位进行调查。由于需要两个步骤,所以将这种抽样方式称为二阶段抽样。这里,群是初级单位,第二阶段抽取的是最终抽样单位。
    • 将上面方法推广,使抽样的阶段数增多,就称为多阶段抽样(multi-stage sampling)。例如第一阶段抽取初级单位,第二阶段抽取二级单位,第三阶段抽取调查的最终单位就是三阶段抽样,同样的方法还可以定义四阶段抽样。
    • 不过,即便是大规模的抽样调查,抽取样本的阶段也应当尽可能少。因为没增加一个阶段就会增加一份估计误差,用样本对总体进行估计也就更复杂。
    • 多阶段抽样有整群抽样的优点,它保证了样本相对集中,节约了费用;不需要包含所有低阶段抽样单位的抽样框;由于实行再抽样,使调查单位在更广的范围内展开。
    • 在较大规模的抽样调查中,多阶段抽样是经常采用的方法。


  以上介绍了几种常见的概率抽样方式。概率抽样最主要的优点是,可以依据调查结果计算估计量误差,从而得到对总体目标量进行推断的可靠程度。从另一方面讲,也可以按照要求的精确度,计算必要的样本单位数目。
  所以,统计分析的样本主要是概率样本,即样本是采用概率抽样方式得到的。


2. 非概率抽样

  非概率抽样(non-probability sampling)是相对于概率抽样而言的,指抽取样本时不是依据 随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。

  非概率抽样的方式有很多,可以归为以下几种类型:

  1. 方便抽样
    • 调查过程中依据方便的原则,自行确定作为样本的单位。
    • 例如,调查员在街头、公园、商店等公共场所进行拦截式的调查;厂家在出售产品的柜台前对路过的顾客进行调查等。
    • 方便抽样的特点是容易实施,调查成本低。
    • 缺点是样本单位的确定带有随意性,因此,方便样本无法代表有明确定义的总体,将方便样本的调查结果推广到总体是没有任何意义的。
    • 因此,如果研究的目的是对总体有关的参数进行推断,使用方便抽样是不合适的。
    • 在研究科学中,方便抽样可以产生一些想法以及对研究内容的初步认识,或建立假设。
  2. 判断抽样
    • 判断抽样是另一种比较方便的抽样方式,是指研究人员根据经验、判断和对研究对象的了解,有目的地选择一些单位作为样本,实施时根据不同的目的有 重点抽样典型抽样代表抽样 等方式。
    • 重点抽样是从调查对象的全部单位中选择少数重点单位,对其实施调查。这些重点单位的数量虽然不多,但在总体中地位重要。
      • 例如,要了解全国钢铁企业的生产状况,可以选择产量较大的几个钢铁企业,如宝钢,鞍钢,首钢等,对这些重点单位进行调查,就可以了解钢铁产量的大致情况及产量变化的基本走势。
    • 典型抽样是从总体中选择若干个典型的单位进行深入的调研,目的是通过典型单位来描述或揭示所研究问题的本质和规律,因此选择的典型单位应该具有研究问题的本质或特征。
      • 例如,研究青少年犯罪问题,可以选择一些典型的犯人,对其做深入细致的调查,掌握大量一手资料,进而分析青少年犯罪的一般规律。
    • 代表抽样是通过分析选择具有代表性的单位作为样本,在某种程度上,也具有典型抽样的含义。
      • 例如,某奶粉生产企业欲了解消费者对奶粉成分的需求,可以调查一些年轻的母亲,因为她们购买奶粉的数量较大,对奶粉的成分有更高的要求,通过她们可以了解消费者购买奶粉时的意向。
    • 判断抽样时主观的,样本选择的好坏取决于调研者的判断、经验、专业程度和创造性。
    • 这种方式的抽样成本比较低,也容易操作,但由于样本是认为确定的,没有依据随机原则,因而调查结果不能用于对总体有关参数进行估计。
  3. 自愿样本
    • 自愿样本指被调查者自愿参加,成为样本中的一份子,向调查人员提供有关信息。
    • 例如,参与报刊和互联网上登刊的调查问卷活动,向某类节目拨打热线电话等,都属于自愿样本
    • 自愿样本与抽样的随机性无关,样本的组成往往集中于某类特定的人群,尤其集中于对该调查活动感兴趣的人群,因此这种样本是有偏的。
    • 我们不能依据样本的信息对总体的状况进行估计,但自愿样本可以给研究人员提供许多有价值的信息,可以反映某类群体的一般看法。
  4. 滚雪球抽样
    • 滚雪球抽样往往用于对稀少群体的调查。
    • 滚雪球抽样中,首先选择一组调查单位,对其实施调查之后,再请他们提供另外一些属于研究总体的调查对象,调查人员根据所提供的线索,继续进行调查。这个过程持续下去,就会形成滚雪球效应。
    • 例如,欲对冬泳爱好者进行某项调查,调查人员首先找到若干名冬泳爱好者,然后通过他们找到更多的冬泳爱好者。
    • 滚雪球抽样也属于非概率抽样,因为与随机抽取的被调查者相比,被推荐的被调查者在许多方面与推荐他们的那些人更为相似。
    • 滚雪球抽样的主要优点是容易找到属于特定群体的被调查者,调查的成本也比较低。它适合对特定群体进行资料搜集和研究。
  5. 配额抽样
    • 配额抽样类似于概率抽样中的分层抽样,在市场调查中有广泛的应用。
    • 它是首先将总体中的所有单位按一定的标志(变量)分为若干类,然后在每个类中采用方便抽样或判断抽样的方式选取样本单位。
    • 这种抽样方式操作比较简单,而且可以保证总体中不同类别的单位都能包括在所抽的样本中,使得样本的结构和总体的结构类似。
    • 因为在抽取具体样本单位时并不是依据随机原则,所以它属于非概率抽样。
    • 在配额抽样中,可以按单一变量控制。例如,在一个城市中采用配额抽样抽出一个 n = 500 n=500 n=500的样本。控制变量有年龄和性别,配额是按单个变量分别分配的,如各个年龄段上的配额或性别的配额。这种单一变量配额控制的抽样操作比较简便,但有可能出现偏斜。
    • 在配额抽样中,也可以按交叉变量控制,即多个变量同时控制。交叉变量配额控制可以保证样本的分布更为均匀,但现场调查中为了保证配额额实现,尤其是在调查接近结束时所选的样本单位要同时满足特定的配额,操作的难度可能要更大一些。

3. 概率抽样与非概率抽样的比较

  概率抽样非概率抽样是性质不同的两种抽样类型,在调查中采用何种抽样类型取决于多种因素,包括研究问题的性质、使用数据要说明的问题、调查对象的特征、调查费用、时间等。

  非概率抽样不依据随机原则抽选样本,所以统本统计量分布是不确切的,因而无法使用样本的结果对总体相应参数进行推断。

  • 如果调查的目标是用样本的调查结果对总体相应参数进行估计,并计算估计的误差,得到总体参数的置信区间,这时就不适合采用非概率抽样。
  • 非概率抽样的特点是操作简便、时效快、成本低,而且对于抽样中的统计专业技术要求不是很高。
  • 非概率抽样适合探索性的研究,调查的结果用于发现问题,为更深入的数量分析做准备。
  • 非概率抽样也适合市场调查中的概念测试,如产品包装测试、广告测试等。

  概率抽样依据随机原则抽选样本,这时样本统计量的理论分布是存在的,因此可以根据样本的调查结果对总体相应参数进行推断,计算估计误差,得到总体参数的置信区间,并且可以在进行抽样设计时对估计的精度提出要求,计算为满足特定精度要求所需要的样本量。

  • 所以,如果调查的目的在于掌握研究对象总体的数量特征,得到总体参数的置信区间,就应当使用概率抽样。
  • 当然,概率抽样的技术含量更高,无论是抽选样本还是对调查数据进行分析,都要求有较高的统计学专业知识,调查成本也比非概率抽样高。

  有时在一个研究项目中,也可以把概率抽样和非概率抽样相结合,发挥各自优点,满足研究中的不同需求。

  鉴于概率抽样对统计学专业知识要求较高,故本系列后面对统计方法的讨论中,若无特别说明,均假定数据取自概率抽样。


2.2.2 搜集数据的基本方法

  样本单位确定之后,对这些单位实施调查,即从样本单位那里得到所需要的数据,可以采用不同的方法。搜集数据的基本方法有以下几种:

  1. 自填式
    • 自填式是指在没有调查员协助的情况下由被调查者自己填写,完成调查问卷。
  2. 面访式
    • 面访式是指现场调查中调查员与被调查者面对面,调查员提问、被调查者回答这种调查方式。
  3. 电话式
    • 电话式是指调查人员通过打电话的方式向被调查者实施调查。
  4. 数据搜集方法的选择
    • 搜集数据的不同方法各有特点,在选择数据搜集方法时,需要考虑以下几个问题:
    • 抽样框中的有关信息
    • 目标总体的特征
    • 调查问题的内容
    • 有形辅助物的使用
    • 实施调查的资源
    • 管理与控制
    • 质量要求

三种搜集数据的方法特点如下表所示:

项目自填式面访式电话式
调查时间中等
调查费用
问卷难度要求容易可以复杂要求容易
有形辅助物的使用中等利用充分利用无法利用
调查过程控制简单复杂容易
调查员作用的发挥无法发挥充分发挥一般发挥
回答率最低较高一般

  由此可知,没有哪一种方法在所有方面都是最好的,因此,在数据搜集使用方法的选择中要根据调查所需信息的性质、调查对象的特点、对数据质量和回答率的要求,以及预算费用和时间要求等多方面因素综合而定。

  也许没有一种方法是适用的,这时就要考虑研究人员对数据需求的最主要方面。

  需要说明的是,各种方法并不是相互排斥的;相反,在许多方面恰恰是相互补充的,因此,在一项调研活动中将各种方法结合起来使用也许是不错的选择。

  例如,对被选中的调查单位首先采用邮寄问卷,让受访者自填的方式,对没有返回问卷的受访者,再进行电话追访或面访。


总结

本篇主要讲调查方法,觉得笔者写得不错的可以点点关注,谢谢大家咯,一起努力,hhh~~。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值