第二章 统计学基础概念
概要:统计数据类型和基本概念
文章目录
前言
提示:这里可以添加本文要记录的大概内容:
一、统计数据类型
统计数据是对现象进行测量的结果。比如,对人口性别的测量可以得到男、女这样的数据。
1.分类数据、顺序数据、数值型数据
数据的测量尺度有四种:
- 分类尺度 nominal scale 按照事物的某种属性对其进行平行的分类,数据形式为类别;
- 顺序尺度 ordinal scale 对事物类别顺序的测度,数据表现为有序的类别;
- 间隔尺度 interval scale 对事物类别或次序之间间距的测度,没有绝对零点1,数据表现为数字。
- 比率尺度 ratio scale 对事物类别或次序之间间距的测度,有绝对零点1,数据表现为数字。
根据所采用的测量尺度,可以将数据分为分类数据、顺序数据、定距数据和定比数据,后两种可合称为数值型数据
数据类型 | 特性 |
---|---|
分类数据 | 只能归于某一类别的非数字型数据,是对事物进行分类的结果,数据表现为类别,通常使用文字来描述;如性别、行业等。 |
顺序数据 | 只能归于某一有序类别的非数字型数据,数据表现为有序类别或数字代码;如受教育程度、对事物的态度。 |
数值型数据 | 是按数字尺度测量的观测值,表现为具体的数值;定距数据具有固定的测量单位和等距数据间隔,可进行加减乘除处理数据间隔,如温度、时间;定距数据具有等距和定比特征,可使用平均数、标准差等指标来描述集中区适合离散程度,如长度、重量、价格。 |
2.观测数据与实验数据
按数据收集方法 | 特性 |
---|---|
观测数据 | 没有对事物人为控制的条件下,直接通过调查或观察所得到的数据;如经济统计数据。 |
实验数据 | 在实验中控制实验对象而收集到的数据;如药品效果的实验数据。 |
3.截面数据与时间序列数据
按现象与调查时间关系 | 特性 |
---|---|
截面数据 | 在相同或近似的时间点上,收集不同空间的数据,用于描述现象在某一时刻的变化情况;如分省生产总值数据。 |
时间序列数据 | 按时间顺序收集到的数据,用于描述现象随时间变化的情况;如近五年我国进出口额。 |
二、基本概念
1.总体、个体与样本
- 总体(目标总体)是指根据研究目的所确定的研究对象全体,是具有相同特征或性质的个体的集合。总体可按总体容量分为有限总体和无限总体,这一分类主要是为了判别每次抽样是否独立。
- 个体可以是调查单位或者是调查单位的观测值。
- 样本是从抽样总体中抽取的部分个体的集合,具有不唯一性,目的是为了根据样本的信息推断总体的特征。
2.参数与统计量
- 参数(parameter)是用来描述总体特征的概括性数字度量,总体参数通常用希腊字母表示。总体参数通常是未知的,需要通过抽样样本信息估计参数。
- 统计量(statistic)是用来描述样本特征的概括性数字度量,通常用英文字母表示。统计量是通过样本信息计算的一个量,由于样本是随机的,因此统计量是样本的寒暑假——随机变量。
3.标志与变量
- 标志Key是用来描述或体现个体特征的名称,在每个个体的具体结果为标志表现Value,{K:V}。如性别、民族为标志,男、汉族为标志表现。
· 品质标志vs数量标志:品质标志的标志表现为定性数据;数量标志的标志表现为定量数据。
· 不变标志vs可变标志:不变标志是总体内每个个体都表现相同的标志,是构成总体的基础;可变标志是每个个体具体表现不相同的标志。i.e.对某高校学生的出生地调查研究中,身份为某高校的学生为不变标志,而各个学生的出生地为可变标志。
· 直接标志vs间接标志:直接标志直接表明个体的属性特征或数量特征,而间接特征是通过两个及以上的直接标志计算后间接表明个体的数量特征。 - 变量Variable是可变标志的抽象化,变量的具体取值为也称标志值。
· 定性变量vs定量变量:反映定性数据的变量为定性变量,反映定量数据的变量为定量变量。
· 确定性变量vs随机性变量:确定性变量指受确定因素影响的变量,即影响变量值变化的因素是明确、可解释或可人为操控的,因而变量的变化方向和变动程度是可以确定的。反之,随机性变量指受随机因素影响的变量,即影响变量值变化的因素是不确定或非人为可操控的,但随机性变量也存在一定的规律性。统计学的主要任务之一是通过大量观测来发现随机变量的变动规律。
· 离散性变量vs连续性变量:离散性变量的取值是不连续的、间断的,连续变量是可以在一定区间内任意取实数为值的变量。
4.统计指标与指标体系
- 统计指标:反映总体数量特征的概念及其数值,包括指标名称和指标数值。指标名称反映研究现象的实际内容,是对现象本质特征的概括,是对总体数量特征的质的规定性。统计指标的确定必须有一定的理论基础,如经济统计指标的理论基础是经济学。指标数值是所研究现象实际内容的数量表现,是对总体本质特征的量的规定性。
· 按计算范围可分为总体指标(parameter)和样本指标(statistic)。
· 按反映现象的内容可分为数量指标和质量指标。数量指标也称总量指标,反映现象某一方面的绝对数量特征,表明现象所达到的总规模、总水平或工作总量,计数单位由实物单位、价值单位和时间单位;按流量和存量的区别,可进一步分为时点指标和时期指标。质量指标是反映现象总体内在对比关系或总体间对比关系的指标,表明现象所达到的相对规模、平均水平、工作质量或相互依存关系。质量指标可进一步分为相对指标和平均指标。相对指标反映事物内部或相关事物之间的相对数量关系,是两个相关统计指标对比的结果,如结构相对指标、比例相对指标、比较相对指标、动态相对指标、强度相对指标和计划完成程度相对指标,具体结果为相对数。平均指标反映变量分布的集中趋势和中心位置,具体结果为平均数。
· 按现象所反映时间状态可分为静态指标和动态指标。静态指标反映在某一事点的数量特征,如总量指标、静态相对指标和一般平均指标;动态指标反映在不同时期或时点上的数发展变化情况,如增长率指标、动态相对指标和序时平均指标;
统计指标的六大要素:指标名称、计算方法、空间限制、时间限制2、具体数值和计量单位。 - 统计指标体系:为较全面了解现象的总体特征,需要设计多个互相联系的统计指标。这种反映同一总体的多个方面数量特征的一系列相互联系的统计指标形成的体系为统计指标体系。有机整体表现为:
· 数学等式关系:Y=C+I+G+NX
· 相互补充关系: 不同方面共同说明工业企业生产经营状况
· 相关关系:人均GDP、PI和个人消费
· 原因、条件或结果关系:Y=A·f(L,K)