零基础学人工智能之统计学篇(2. 2) -----调查方法

本文链接：https://blog.csdn.net/weixin_63009611/article/details/145421183

2.2 调查方法

2.2.1 概率抽样和非概率抽样

在数据采集阶段，统计学家面临的一个关键问题是如何抽选出一个好的样本。好的样本都是相对而言的，相对包括两方面的含义：

一个含义是针对研究问题而言的。不同的研究问题，对样本的要求会有所差别。
对某一个研究问题，这可能是一个不错的样本；对另一个研究问题，这个样本可能就是糟糕的。
例如，如果研究顾客的满意度，样本就应当来自该产品的用户，而如果要了解消费者对该产品的购买意愿，样本就应该取自所有潜在的购买者。
所以，进行什么样的抽样设计首先取决于研究目的。

另一个含义是针对调查费用与估计精度的关系而言的。
进行数据搜集总要投入一定的调查费用，调查也希望获得更多高质量数据。
但两者往往是矛盾的，一个好的样本应当具有最好的性能价格比，即在相同费用的条件下，获得数据的估计精度最高；或在相同估计精度的条件下，调查成本最低。
使用抽样采集数据的具体方式有许多种，可以将这些方式分为两类：概率抽样和非概率抽样。

1. 概率抽样

概率抽样（probability sampling）也称随机抽样，是指遵循 随机原则 进行的抽样，总体中每个单位都有一定的机会被选入样本。它具有以下几个特点：

首先，抽样时按一定的概率以随机原则抽取样本。
所谓随机原则，就是在抽样时排除主观意识地抽取调查单位。
随机不等于随便，随机有严格的科学含义，可以用概率来描述；随便则带有人为主观的因素。例如，要在一栋楼抽取10位居民作为样本，
若采用随机原则，就需要事先将居住在该楼的居民按某种顺序编号，通过一定的随机化程序，如使用随机数字表，抽取出样本，这样可以保证每位居民都有一定机会被被选中；
若调查人员站在楼前，将最先走到楼外的10位居民选入样本，这就是随便而不是随机，这种方法不能使该楼的所有居民都有一定机会被选中，已经在楼外的人和调查时段不外出的人不可能被选中。

随机与随便的本质区别在于，是否按照给定的入样概率，通过一定的随机化程序抽取样本单元。

其次，每个单位被抽中的概率是已知的，或是可以计算出来。
最后，当用样本对总体目标量进行估计时，要考虑到每个样本单位被抽中的概率。这就是说，估计量不仅与样本的观测值（观察值）有关，也与其入样概率有关。
需要提及的是，概率抽样与等概率抽样是两个不同的概念。
当我们谈到概率抽样时，是指总体中的每个单位都有一定的非零概率被抽中，单位之间的概率可以相等，也可以不等。
若是前者，称为等概率抽样；若是后者，称为不等概率抽样。

调查实践中经常采用的概率抽样方式有以下几种：

简单随机抽样
进行概率抽样需要抽样框，抽样框（sampling frame）通常包括所有总体单位的信息，如企业和名录（抽选企业）、学生名册（抽选学生）、住户门牌号码（抽选住户）等。
抽样框的作用不仅在于提供备选单位名单进行抽选，它还是计算各个单位入样概率的依据。
简单随机抽样（simple random sampling）就是从包括总体N个单位的抽样框中随机地、一个个地抽取 $n$ 个单位作为样本，每个单位的入样概率是相等的。
抽样的随机性是通过抽样的随机化程序体现的，可以用随机数字表，也可以使用能产生符合要求的随机数序列的计算机程序。
方法一：根据总体单位个数 $N$ 的位数决定在随机数字表中抽取几列，如 $N = 678$ ，要抽取 $n = 5$ 的样本，这使 $N$ 为 $3$ 位数，则在随机数字表中随机抽取 $3$ 列，顺序往下，选出头 $5$ 个 $001\sim678$ 之间互不相同的数，如果这 $3$ 列随机数字不够，可另随机选其他 $3$ 列继续，知道抽满 $n$ 个单位为止。
方法二：当首位数比较小时，方法一的执行效率可能不高。假设 $N = 327$ ，首位数是 $3$ ，比较小。按方法一，在随机数字表中抽选 $001\sim327$ 范围内的数字，若在随机数字表中抽到 $486$ ，在 $001\sim327$ 范围外，只好遗弃，比较可惜。这时可采用余数入样的方法，即 $486\div327$ ，商为 $1$ ，余数为 $159$ ，则第 $159$ 个单位被抽中，以此类推。

简单随机抽样是一种最基本的抽样方法，是其他抽样方法的基础。这种方法的突出特点是简单、直观，在抽样框完整时，可以直接抽取样本，由于抽选概率相同，用样本统计量对目标量进行估计及计算估计量误差都比较方便。
但简单随机抽样也有一些局限性：
首先，要求将包含所有总体单位作为抽样框，当 $N$ 很大时，构造这样的抽样框并不容易；
其次，这种方法抽出的单位很分散，给实施调查增加了困难；
最后，这种方法没有利用其他辅助信息以提高估计的效率。

所以，在规模较大的调查中，一般是把这种方法和其他抽样方法结合使用。

分层抽样
分层抽样（stratified sampling）是将抽样单位按某种特征或某种规则划分为不同的层，然后从不同的层中独立、随机地抽取样本。
将各层的样本结合起来，对总体的目标量进行估计。
优点：保证了样本中包含各种特征的抽样单位，样本结构与总体结构比较相近，提高了估计精度；在一定条件下为实施调查提供了方便（当层是按照行业或行政区划分时）；既可以估计总体参数，也可以估计各层的目标量等。

整群抽样
将总体中若干个单位合并为组，这样的组称为群。
整群抽样（cluster sampling）是指在抽样时直接抽取群，然后对中选群中的所有单位全部实施调查。
特点：抽取样本时只需要群的抽样框，而不必要求抽样框包括所有单位，大大简化了工作量；其次，群通常由那些地理位置邻近的或隶属于同一系统的单位所构成，调查地点相对集中，节省了调查费用，方便了调查实施。
缺陷：估计精度较差，由于同一群内的单位或多或少有些相似，在样本量相同的条件下，整群抽样的抽样误差通常比较大。
一般来说，要得到与简单随机抽样相同的精度，采用整群抽样需要增加基本调查单位。

系统抽样
系统抽样（systematic sampling）是将总体中的所有单位（抽样单位）按一定顺序排列，在规定的范围内随机抽取一个单位作为初始单位，然后按照事先制定好的规则确定其他样本单位。
典型的系统抽样是先从数字 $1\sim k$ 中随机抽取一个数字 $r$ 作为初始单位，以后依次取 $r + k, r + 2 k$ ， $\cdot\cdot\cdot$ 。可以把系统抽样看作是将总体内的单位按顺序分成 $k$ 群，用相同概率抽取出一群的方法。
主要优点是操作简便，如果由辅助信息，对总体内的单位进行有组织的排列，可以有效地提高估计的精度。
缺点是对估计量方差的估计比较困难。

多阶段抽样
多阶段抽样采用类似整群抽样的方法，首先抽取群，但并不是调查群内的所有单位，而是再进一步抽样，从选中的群中抽取出若干个单位进行调查。由于需要两个步骤，所以将这种抽样方式称为二阶段抽样。这里，群是初级单位，第二阶段抽取的是最终抽样单位。
将上面方法推广，使抽样的阶段数增多，就称为多阶段抽样（multi-stage sampling）。例如第一阶段抽取初级单位，第二阶段抽取二级单位，第三阶段抽取调查的最终单位就是三阶段抽样，同样的方法还可以定义四阶段抽样。
不过，即便是大规模的抽样调查，抽取样本的阶段也应当尽可能少。因为没增加一个阶段就会增加一份估计误差，用样本对总体进行估计也就更复杂。
多阶段抽样有整群抽样的优点，它保证了样本相对集中，节约了费用；不需要包含所有低阶段抽样单位的抽样框；由于实行再抽样，使调查单位在更广的范围内展开。
在较大规模的抽样调查中，多阶段抽样是经常采用的方法。

以上介绍了几种常见的概率抽样方式。概率抽样最主要的优点是，可以依据调查结果计算估计量误差，从而得到对总体目标量进行推断的可靠程度。从另一方面讲，也可以按照要求的精确度，计算必要的样本单位数目。
所以，统计分析的样本主要是概率样本，即样本是采用概率抽样方式得到的。

2. 非概率抽样

非概率抽样（non-probability sampling）是相对于概率抽样而言的，指抽取样本时不是依据 随机原则，而是根据研究目的对数据的要求，采用某种方式从总体中抽出部分单位对其实施调查。

非概率抽样的方式有很多，可以归为以下几种类型：

方便抽样
调查过程中依据方便的原则，自行确定作为样本的单位。
例如，调查员在街头、公园、商店等公共场所进行拦截式的调查；厂家在出售产品的柜台前对路过的顾客进行调查等。
方便抽样的特点是容易实施，调查成本低。
缺点是样本单位的确定带有随意性，因此，方便样本无法代表有明确定义的总体，将方便样本的调查结果推广到总体是没有任何意义的。
因此，如果研究的目的是对总体有关的参数进行推断，使用方便抽样是不合适的。
在研究科学中，方便抽样可以产生一些想法以及对研究内容的初步认识，或建立假设。

判断抽样
判断抽样是另一种比较方便的抽样方式，是指研究人员根据经验、判断和对研究对象的了解，有目的地选择一些单位作为样本，实施时根据不同的目的有 重点抽样、典型抽样、代表抽样 等方式。
重点抽样是从调查对象的全部单位中选择少数重点单位，对其实施调查。这些重点单位的数量虽然不多，但在总体中地位重要。
例如，要了解全国钢铁企业的生产状况，可以选择产量较大的几个钢铁企业，如宝钢，鞍钢，首钢等，对这些重点单位进行调查，就可以了解钢铁产量的大致情况及产量变化的基本走势。

典型抽样是从总体中选择若干个典型的单位进行深入的调研，目的是通过典型单位来描述或揭示所研究问题的本质和规律，因此选择的典型单位应该具有研究问题的本质或特征。
例如，研究青少年犯罪问题，可以选择一些典型的犯人，对其做深入细致的调查，掌握大量一手资料，进而分析青少年犯罪的一般规律。

代表抽样是通过分析选择具有代表性的单位作为样本，在某种程度上，也具有典型抽样的含义。
例如，某奶粉生产企业欲了解消费者对奶粉成分的需求，可以调查一些年轻的母亲，因为她们购买奶粉的数量较大，对奶粉的成分有更高的要求，通过她们可以了解消费者购买奶粉时的意向。

判断抽样时主观的，样本选择的好坏取决于调研者的判断、经验、专业程度和创造性。
这种方式的抽样成本比较低，也容易操作，但由于样本是认为确定的，没有依据随机原则，因而调查结果不能用于对总体有关参数进行估计。

自愿样本
自愿样本指被调查者自愿参加，成为样本中的一份子，向调查人员提供有关信息。
例如，参与报刊和互联网上登刊的调查问卷活动，向某类节目拨打热线电话等，都属于自愿样本。
自愿样本与抽样的随机性无关，样本的组成往往集中于某类特定的人群，尤其集中于对该调查活动感兴趣的人群，因此这种样本是有偏的。
我们不能依据样本的信息对总体的状况进行估计，但自愿样本可以给研究人员提供许多有价值的信息，可以反映某类群体的一般看法。

滚雪球抽样
滚雪球抽样往往用于对稀少群体的调查。
在滚雪球抽样中，首先选择一组调查单位，对其实施调查之后，再请他们提供另外一些属于研究总体的调查对象，调查人员根据所提供的线索，继续进行调查。这个过程持续下去，就会形成滚雪球效应。
例如，欲对冬泳爱好者进行某项调查，调查人员首先找到若干名冬泳爱好者，然后通过他们找到更多的冬泳爱好者。
滚雪球抽样也属于非概率抽样，因为与随机抽取的被调查者相比，被推荐的被调查者在许多方面与推荐他们的那些人更为相似。
滚雪球抽样的主要优点是容易找到属于特定群体的被调查者，调查的成本也比较低。它适合对特定群体进行资料搜集和研究。

配额抽样
配额抽样类似于概率抽样中的分层抽样，在市场调查中有广泛的应用。
它是首先将总体中的所有单位按一定的标志（变量）分为若干类，然后在每个类中采用方便抽样或判断抽样的方式选取样本单位。
这种抽样方式操作比较简单，而且可以保证总体中不同类别的单位都能包括在所抽的样本中，使得样本的结构和总体的结构类似。
因为在抽取具体样本单位时并不是依据随机原则，所以它属于非概率抽样。
在配额抽样中，可以按单一变量控制。例如，在一个城市中采用配额抽样抽出一个 $n = 500$ 的样本。控制变量有年龄和性别，配额是按单个变量分别分配的，如各个年龄段上的配额或性别的配额。这种单一变量配额控制的抽样操作比较简便，但有可能出现偏斜。
在配额抽样中，也可以按交叉变量控制，即多个变量同时控制。交叉变量配额控制可以保证样本的分布更为均匀，但现场调查中为了保证配额额实现，尤其是在调查接近结束时所选的样本单位要同时满足特定的配额，操作的难度可能要更大一些。

3. 概率抽样与非概率抽样的比较

概率抽样与非概率抽样是性质不同的两种抽样类型，在调查中采用何种抽样类型取决于多种因素，包括研究问题的性质、使用数据要说明的问题、调查对象的特征、调查费用、时间等。

非概率抽样不依据随机原则抽选样本，所以统本统计量分布是不确切的，因而无法使用样本的结果对总体相应参数进行推断。

如果调查的目标是用样本的调查结果对总体相应参数进行估计，并计算估计的误差，得到总体参数的置信区间，这时就不适合采用非概率抽样。
非概率抽样的特点是操作简便、时效快、成本低，而且对于抽样中的统计专业技术要求不是很高。
非概率抽样适合探索性的研究，调查的结果用于发现问题，为更深入的数量分析做准备。
非概率抽样也适合市场调查中的概念测试，如产品包装测试、广告测试等。

概率抽样依据随机原则抽选样本，这时样本统计量的理论分布是存在的，因此可以根据样本的调查结果对总体相应参数进行推断，计算估计误差，得到总体参数的置信区间，并且可以在进行抽样设计时对估计的精度提出要求，计算为满足特定精度要求所需要的样本量。

所以，如果调查的目的在于掌握研究对象总体的数量特征，得到总体参数的置信区间，就应当使用概率抽样。
当然，概率抽样的技术含量更高，无论是抽选样本还是对调查数据进行分析，都要求有较高的统计学专业知识，调查成本也比非概率抽样高。

有时在一个研究项目中，也可以把概率抽样和非概率抽样相结合，发挥各自优点，满足研究中的不同需求。

鉴于概率抽样对统计学专业知识要求较高，故本系列后面对统计方法的讨论中，若无特别说明，均假定数据取自概率抽样。

2.2.2 搜集数据的基本方法

样本单位确定之后，对这些单位实施调查，即从样本单位那里得到所需要的数据，可以采用不同的方法。搜集数据的基本方法有以下几种：

自填式
自填式是指在没有调查员协助的情况下由被调查者自己填写，完成调查问卷。

面访式
面访式是指现场调查中调查员与被调查者面对面，调查员提问、被调查者回答这种调查方式。

电话式
电话式是指调查人员通过打电话的方式向被调查者实施调查。

数据搜集方法的选择
搜集数据的不同方法各有特点，在选择数据搜集方法时，需要考虑以下几个问题：
抽样框中的有关信息
目标总体的特征
调查问题的内容
有形辅助物的使用
实施调查的资源
管理与控制
质量要求

三种搜集数据的方法特点如下表所示：

项目	自填式	面访式	电话式
调查时间	慢	中等	快
调查费用	低	高	低
问卷难度	要求容易	可以复杂	要求容易
有形辅助物的使用	中等利用	充分利用	无法利用
调查过程控制	简单	复杂	容易
调查员作用的发挥	无法发挥	充分发挥	一般发挥
回答率	最低	较高	一般

由此可知，没有哪一种方法在所有方面都是最好的，因此，在数据搜集使用方法的选择中要根据调查所需信息的性质、调查对象的特点、对数据质量和回答率的要求，以及预算费用和时间要求等多方面因素综合而定。

也许没有一种方法是适用的，这时就要考虑研究人员对数据需求的最主要方面。

需要说明的是，各种方法并不是相互排斥的；相反，在许多方面恰恰是相互补充的，因此，在一项调研活动中将各种方法结合起来使用也许是不错的选择。

例如，对被选中的调查单位首先采用邮寄问卷，让受访者自填的方式，对没有返回问卷的受访者，再进行电话追访或面访。