数据搜集
文章目录
1 数据来源
所有统计数据都来源于社会调查或试验,但从使用角度看,统计数据来自两条渠道:
- 间接来源,由别人通过调查或试验方式搜集
- 直接来源,由自己通过调查或试验方式搜集
1.1 数据的间接来源
间接数据来源既包括取自系统外部,也包括取自系统内部。外部获取途径包括政府部门定期发行的年鉴、经济信息中心,咨询机构、调查机构、协会或行业的发展的情报;各类报纸、期刊、图书馆文献资料;各种会议、学术研讨会等。内部获取途径,就经济活动来说,包括公司或企业内部业务以及与生产相关的统计报表、财务、会计核算等。
1.2 间接数据的评价
间接数据搜集成本相对较低,搜集难度相对容易。但是,间接数据也存在较大弊端,一是间接数据不是为特点研究而产生的,在做研究时可能并不支持个人的预期结论。另外,间接数据的来源口径也存在差异,数据的准确性需要具体分析。因此,使用间接数据需要对数据的准确性进行评估。评估需要考虑如下问题
- 资料谁搜集的?
- 搜集的目的?
- 如何搜集的?
- 什么时候搜集的?
1.3 数据的直接来源
数据直接来源即通过调查或实验的方法得到的一手资料。调查相对于社会现象而言,调查数据通常取自有限总体。如果对总体进行调查,则为普查。如果总体较大,普查将是一项巨大的工程,时间、精力于与成本的投入可能阻碍了研究工作。因此,如何进行抽样调查成为统计学家需要考虑的一个问题。实验是相对于自然现象而言的,但社会学家也利用实验或准实验的方法来获取数据。
2 调查数据
使用抽样调查数据的方式较多,根据不同方式可分为概率抽样与非概率抽样
2.1概率抽样
概率抽样也称为随机抽样,需要遵循以下原则
- 抽样要按照一定概率以随机方式抽样
- 个体被抽中的概率是已知且可计算的
- 用样本对总体目标进行估计,要考虑到每个样本被抽中的概率
抽样概率的方式包括以下几种:
-
简单随机抽样:从包含N个个体的抽样框中随机地、一个一个地抽取n个样本,每个样本入样地概率相等
-
分层抽样:将抽样单位按照某种特征或某种规则分为不同地层,然后从不同地层随机地抽取样本。
-
整群抽样:将总体若干单位合并为组,这样地组称为群。抽样时直接抽取群,然后选中群中地所有单位全部实施调查。
-
系统抽样:将总体中所有单位按一定顺序排列,在规定地范围内随机抽取一个单位作为初始单位,然后按照事先规定地规则确定其他抽样单位。
2.2 非概率抽样
非随机抽样与随机抽样不同,它是根据数据要求、采取某种方式从总体抽出部分单位进行调查。非概率抽样主要包括以下几种:
- 方便抽样:怎么方便怎么来,带有主观随意性
- 判断抽样:根据样就这自身经验、判断、知识等,有目的地选择一些单位作为样本机械能调查。根据目的不同,又可以分为重点抽样、典型抽样与代表抽样
- 自愿样本:被调查者自愿参与,主动成为样本的一份子。
- 滚雪球抽样:针对于稀少群体的调查。在滚雪球抽样中,首先选择一组单位调查,对其实施调查后,根据被访者提供属于样本总体的调查对象,调查人员根据所提供的线索,进行调查。
- 配额抽样:先将总体按照某一特征进行排序分为若干类,然后再实施方便抽样或判断抽样选取样本。主要运用在市场调查中。
2.3 概率抽样 *vs.*非概率抽样
非概率抽样方便快捷,对统计学的技术要求不高,适合于探索性研究。但是,非概率抽样由于个体的概率分布不确切,无法使用样本结果对总体的相关参数进行推断统计。如果将非概率抽样样本进行参数假设、区间估计、回归分析等,可能与实际情况存在偏误。概率抽样要求研究者有较高的统计技术知识,其调查成本也比非概率抽样高
3 搜集数据的方法
搜集数据的方法主要包括
- 自填式:在没有调查员协助时,被调查者自己填写
- 面访式:在调查现场中与被调查者面对面对交流、询问。
- 电话式:调查者通过打电话方式向被调查者调查
4 实验数据
实验数据是在实验室控制实验对象而搜集到的数据
4.1 实验组与对照组
实验不仅是搜集数据的方法,也是一种研究方法。实验的基本逻辑:
改变某个变量(A)的情况,然后观察另一个变量(B)的变化情况。如果B随着A的变化而变化,则说明A对B有影响。为此,需要将样本一分为二,一个为实验组,另一个为对照组。实验组指随机抽选实验对象的子集,并对这个子集特殊处理;对照组额每个单位不接受某种特殊处理。
4.2 实验中的若干问题
实验虽然逻辑严密、较好证明假设、分析事物之间的因果,但实验过程也存在相关问题:
- 第一,受试者(人)的意愿。每个人都有子集的生活方式与处世原则,被试者未必按照要求行事
- 第二,心里问题。人么对被研究非常敏感,这使得受试者更加注意自我
- 第三,道德问题。道德问题使人与动物的实验过程复杂化。另外,一些的隐私数据可能存在泄露。
参考文献:
贾俊平等. 统计学(第六版) [M]. 中国人民大学出版社,2000