第一章统计学和数据

可可kk

已于 2023-08-18 08:58:24 修改

阅读量203

点赞数

分类专栏： #+ 初级统计师统计业务知识文章标签：统计学

于 2023-08-18 08:50:31 首次发布

本文链接：https://blog.csdn.net/weixin_51188329/article/details/132235242

版权

#+ 初级统计师统计业务知识专栏收录该内容

1 篇文章 0 订阅

订阅专栏

第一章统计学和数据

第一节统计学的含义及应用（了解）
- 一、什么是统计学
- 二、统计学的几个基本概念（重点）
第二节统计学发展简史（了解）
第三节变量与数据（掌握）
第四节数据的搜集（掌握）
第五节数据的误差（掌握）

第一节统计学的含义及应用（了解）

统计学是一门收集、分析、表述和解释数据的科学。
数据是统计学的基本研究对象。

一、什么是统计学

统计学是关于数据的一门学问。
统计学所关注的是大量可重复事物现象数量特征。
统计学也是一门找出统计规律的学问。

二、统计学的几个基本概念（重点）

（一）总体
总体：是所研究的全部个体或数据的集合，其中的每一个个体也称为元素。与研究目的或研究问题密切相关。总体的特征是唯一确定的，但是是未知的。
总体参数：描述总体特征的概括性数字度量。主要有总体均值、标准差、总体比例等。
总体可分为有限总体和无限总体。有限总体的范围能够明确确定，且数目是有限的，称为总体容量；无限总体所包括的元素数目是无限的。
（二）样本
样本：从总体中抽取的一部分元素构成的集合。样本是不唯一，不确定的，但是样本的特征是已知的。
样本统计量：描述样本特征的概括性数字度量。主要有样本均值，样本标准差、样本比例等。
样本量：构成样本的元素的数目称为样本量。
（三）统计方法
描述统计：研究数据搜集、处理、描述及可视化的统计学方法。包括：如何取得数据，如何用图表形式对数据进行处理和展示，如何通过对数据的综合、概况和分析，得出所关心的数据特征。
推断统计：如何利用样本数据来推断总体特征的统计学方法。包括：参数估计和假设检验。

第二节统计学发展简史（了解）

（1）古典统计学时期。17世纪中叶至18世纪中叶。统计学萌芽阶段。国势学派和政治算术学派。
国势学派产生于17-18世纪的德国。主要是对国家重要事项的记录，只是对各国情况做了一般性的比较记述，没有进行数量研究和描述，故国势学派有统计学之名，而无统计学之实。
政治算数学派产生于17世纪中叶的英国。政治算数学派是有统计学之实，而无统计学之名。
（2）近代统计学时期。18世纪末到19世纪末期。数理统计学派和社会统计学派。
数理统计学派产生于19世纪中叶，它是把概率论引进统计学而形成的。奠基人是比利时物理学家凯特勒，“统计学之父”，凯特勒创建了国际统计学会组织。
社会统计学派认为，统计学研究的是社会总体而不是个别的社会现象。
（3）现代统计学时期。20世纪初迄今的统计学发展时期。这一时期数理统计学发展的主流从描述统计学转向推断统计学。

第三节变量与数据（掌握）

一、变量

天气温度、天气形势、职业、月收入等都是变量。特点是从一次观察到下一次观察会出现不同结果。把观察到的结果记录下来就是数据，数据就是对某个变量观察到的结果。

二、数据类型（重点掌握）

（一）数值型数据与非数值型数据

数值型数据特点：以数字为主要特征；数字具有明确的数值含义；能够进行运算并且能测量出具体的大小和差异。
非数值型数据特点：以事物现象的类别或属性为主要特征；只能反映现象的属性特点，不能刻画出数量的差异。
非数值型数据分为分类和顺序数据。
分类数据：各分类类别之间没有顺序或程度上的差别，这种变量的观察结果就是分类数据。
顺序数据：分类类别有一定的顺序，比如文化程度，这种变量的观察结果就是顺序数据。
顺序数据比分类数据又向前进了一步，功能更强一些，不仅能用来区分客观现象的不同类别，而且还可以表面现象之间的大小、高低、优劣关系，但是无法计算相互之间大小、高低或优劣的距离。顺序数据仍然用来表示事物在性质上的差异，不能用来反映事物在数量上的差异。

在统计研究中，数值型数据的研究是定量分析的主要内容。
很多适用于数值型数据的统计方法并不适用于非数值型数据，但适用于非数值型数据的方法则大多数可以应用与数值型数据。

（二）观测数据和实验数据

1.观测数据。观测数据可能是总体也可能是样本数据。观测数据是对客观现象进行实地观测所取得的数据，在数据取得的过程中国一般没有人为的控制和条件约束。在社会经济学问题研究中，观测是取得数据最主要的方法。
2.实验数据。实验数据总体一般是样本数据。实验数据一般是在科学实验环境下取得的数据。实验环境是受到严格限控制的。自然科学研究中所用的数据多为实验数据。

（三）横截面数据、时间序列数据与面板数据

1.横截面数据。同一时间点，不同的观测值上的表现。例如：2020年我们各省的GDP。
2.时间序列数据。同一观测对象，不同时间点。例如：我国历年的GDP。
3.面板数据。不同时间点，不同观测对象上的情况。例如：2010-2020全国各省、市的GDP。

第四节数据的搜集（掌握）

一、数据的来源

（一）数据的直接来源——原始数据

统计调查或进行实验就是统计数据的直接来源。
1.统计调查一般是观测数据。
2.实验是通过做实验得到的数据，不仅是一种搜集数据的方式，也是一种重要的研究方式。为了观察输入变量是否导致了输出变量的改变，在实验中一般将研究对象分为两个组：实验组和对照组。实验组的输入变量加以控制或改变，对照组不加控制。
运用实验法注意：实验组和对照组的产生应该是随机的；实验组和对照组应该是匹配的。

原始数据是统计数据最基本的来源。

（二）数据的间接来源——次级数据

次级数据（二手数据）是指由他人搜集和整理得到的统计数据。
常见的数据间接来源有：
1.公开出版的数据；2.未公开发表的数据；3.网络爬取的数据；
运用间接数据应该注意：注意其适用性和时效性；尽量不使用过时已久的数据。

二、数据的搜集方法

主要介绍统计调查方式。要做好统计调查，首先需要制定科学的调查方案，调查方案应该围绕5W1H来进行，5W1H指的是who-1（谁来组织调查），who-2（向谁调查），when（什么时候进行调查），where（在哪里实施调查），what（调查的内容是什么），how（怎样进行调查）

（一）常用的统计调查方式

1.普查
普查是指为某一特定目的而专门组织的一次性的全面调查，用来调查属于一定时点上或一定时期内的社会现象总量。例如：我国第七次人口普查。
普查的基本要求：（1）要有严密的组织和高质量的普查人员队伍；（2）要有严格的时间要求；（3）普查登记应在整个普查范围内同时进行；（4）调查项目和指标必须集中统一；（5）尽可能保持连贯性。
普查的特点：全面性；一次性专门调查；不宜经常举行。
2.抽样调查
抽样调查是一种非全面调查，按照一定程序从总体中抽取一部分个体作为样本进行调查，并根据样本调查结果来判断总体特征的数据调查方法。
特点：经济性优，最显著优点；时效性强，迅速、及时；适应面广，能调查全面调查所不能调查的现象，特别适合对一些特殊现象的调查；准确性高，抽样调查的数据质量有时候比全面调查高。
用样本数据去推断总体时，不可避免的会有推断误差，但是这种误差的大小是可以计算并加以控制的，因此推断的结果是可靠的。

抽样调查是实际中应用最为广泛的一种调查方法。
抽样方法主要有两种，概率抽样和非概率抽样。
（1）概率抽样，遵循随机原则进行的抽样，总体中每个个体都有一定的机会被选入样本。
概率抽样分为等概率抽样和不等概率抽样。前者指总体中每个单位被抽中的概率都相等。
我国习惯上将概率抽样叫做抽样调查。
概率抽样的特点：按照随机原则抽取样本，随机原则就是排除主观上有意识的选择样本；用样本统计量推断总体参数；可以计算并控制抽样误差的大小。

常用的概率抽样方式有：
a.简单随机抽样。直接从总体中抽选个体，每个个体被选入样本的概率都相等，可分为有放回和无放回。
优点：简单直接
缺点：当N很大时，构造数据框不太容易；该方法抽出的个体较为分散，后续实施起来较为困难；没有充分利用其他辅助信息来提高估计效率。
b.分层抽样。也称类型抽样，按照某种特征分组，从每一组中等比例或最优比例中独立、随机的抽取个体。
优点：样本包含有各种特征的抽样单位，提高估计的精度；分层为组织调查提供了方便；既可以对总体参数进行估计，也可以对各层目标量进行估计；样本含量相等时，标准误一般小于单纯随机抽样。

c.整群抽样。先将总体分成R个群，在从中随机抽取r个群，对抽中的群中所有个体都进行调查。
优点：抽样单位不是单个个体，而是成群个体；简化了编制抽样框的工作量；节省了调查费用，方便了调查的实施。
缺点：精度较差。

d.系统抽样。也称等距抽样，将总体按某种顺序确定一个随机起点，再每隔一定间隔逐个抽取样本单位的抽样方法。

整群抽样>单纯随机抽样>系统抽样>分层抽样
（2）非概率抽样。没有完全按照随机原则选取样本单位，其中单个单位被选中的概率是不可知的，样本统计量的分布不确定，无法计算抽样误差，无法使用样本的结果对总体相应的参数进行推断。
a.方便抽样，主要用于初期评估的探索性研究。
优点：容易实施，调查成本低。
缺点：样本的确定带有随机性，样本无法代表有明确定义的总体。
b.判断抽样，根据主观经验和判断从总体中选取有代表性的个体构成样本的一种非概率抽样方法。
适用于总体中的个体极不相同而样本容量又很小的情况。
c.配额抽样，类似于分层抽样，首先把总体分为不同类，其次，每一类使用方便抽样或判断抽样的方法抽选指定数量的个体，可以保证总体中不同类别的个体都能包括在所抽的样本中。
d.雪球抽样，适用于对稀少的特定群体的的调查。
3.统计报表
分类：全面报表和非全面报表
内容：表式，填表说明
4.重点调查
选择一部分重点单位进行的非全面调查，选择对总体能起主要或决定作用的因素，掌握事物的基本状况与基本的发展趋势，重点单位具有所研究现象的总量在总体总量中占据绝大部分的特点。
优点：节省人力，财力。

5.典型调查
有意识的选择具有典型意义的或有代表性的被调查对象进行的调查。主要作用：补充全面调查的不足，一定条件下可以验证全面调查数据的真实性。
优点：灵活机动、通过少数典型即可取得深入、详实的统计资料的优点。

重点调查与典型调查的区别

重点调查一定要总量占据绝大部分，典型调查指的是一定要有代表性，麻雀虽小五脏俱全，占据绝大部分的不一定能典型的反映变化，而典型调查是一定要反映调查对象的代表性。

（二）搜集数据的方法

1.询问（访谈）
（1）面访。标准式访问（事先设计），非标准式访问（事先没有设计）
（2）邮寄。调查者与被调查者没有直接的语言交流。
（3）计算机辅助电话调查。需要借助专门的软件进行，硬件设备要求比较高。
（4）座谈会。集体访谈，将一组被调查者集中在调查现场，6-10人，一般是有关调查问题的专家或有经验之人。
（5）个别深入访谈。一次只有一名被调查者参加的特殊的数据搜集方法。适用于研究较为隐秘的个人隐私或比较敏感的问题。
2.观察实验。
（1）观察法。调查对象完全没有意识到。
（2）实验法。

第五节数据的误差（掌握）

数据的误差是评价数据质量的主要指标。误差可以来自于许多不同方面，调查误差是主要来源。
调查误差就是指观测值与真实值之间的差异。

一、抽样误差

原因：抽取样本的随机性造成的。
在抽样调查中，抽样误差是不可避免的。在概率抽样中，抽样误差是能够计量且可以得到控制的。
抽样误差的大小影响因素：
1.总体内部的差异程度。
2.样本容量的大小。
3.抽样的方式与方法。重复抽样比不重复抽样的误差大，分层抽样的误差小于其他抽样。
除了第一点以外，都是人为决定的。