统计学的一些基本概念

什么是统计学

  • 统计学是关于数据的一门学问。
  • 所有收集而来的数据都需要经过整理、分析才能得出结论,这就是统计学利用数据解决实际问题的全过程。
  • 但是你会发现,同一个数据可以使用不同的方法进行分析进而得出不同的结论,不同的数据使用同一种方法进行分析也可以得出不同的结论。

如天气预报,不同的预报机构其预报结果不尽相同。

  • 而且,由统计分析得出的结论往往还具有不确定性(uncertainty),因为其描述的往往是某件事发生的机会(opportunity),可以用概率(probability)来衡量。

如天气预报中的降水概率,众所周知,如果降水概率高达90%,那就很可能会下雨,如果降水概率仅为5%,则大家会认为几乎不会下雨。但是实际情况到底下不下雨,只能等到预报的那一天真正到来才知道。

  • 统计学所关注的是大量可重复事物现象数量特征。这是因为在某些领域中,有些结论很难像用数学公式或定理那样进行确定性的描述。

比如,父母身高比较高,一般人都会认为其孩子身高也会比较高。但是当你去观测某一对父母及其小孩的身高时,你会发现,有些身高比较高的父母,其孩子身高并不高。

所以说,身高具有一定的随机性(randomness)。这种随机性可能跟人的基因、生活环境、后天饮食、生活习惯等各方面的因素都有关系。
但是,从总体上来说,身高比较高的父母,其孩子身高保持有比较高的趋势,该规律早已被英国著名生物学家兼统计学家高尔顿(Francis Galton,1822-1911)于1855年通过试验数据所证实。

一个人的身高可能高矮程度不同,这是随机的。但是从总体上来说,平均身高的稳定性说明了随机之中存在规律,这种规律就是统计规律。所以,可以更进一步地说,统计学也是一门找出统计规律的学问。

总体

总体(population),是所研究的全部个体或数据的集合,其中的每一个个体也称为元素(element,individual)。

如,要研究北京市民对汽车限行措施的看法,总体便是全体北京市民对该问题的看法,每一个北京市民对该问题的看法便是构成该总体的个体,单个北京市民则是调查对象(object)。

总体往往只有一个,一旦研究问题确定下来,总体也就确定了。所以说总体的特征是唯一确定的,但是是未知。

描述总体特征的概括性数字度量称之为总体参数(parameter),是研究者想要了解的总体的某种特征值。总体参数主要有总体均值μ标准差σ总体比例π等。

总体可以分为有限总体无限总体

  • 有限总体的范围能够明确确定,且元素的数目是有限的,称为总体容量,一般用N表示;
  • 无限总体所包括的元素其数目是无限的。

样本

**样本(sample)*,从总体中抽取的一部分元素构成的集合。

同一个总体可以抽取出若干个样本组成集合,

如从10000个北京市民中抽取出1000个人,有 C 10000 1000 C_{10000}^{1000} C100001000种抽法(不重复抽样情况下),每一种抽取方法得到的元素构成的集合都是样本。

我们在获取数据的过程中,往往限于人力物力财力等因素,不可能穷尽所有抽取方法来搜集数据,研究者得到的一般都是这么多样本中的其中一个样本。

所以,样本对于研究者而言是不唯一、不确定的,但是一旦收集到一个样本的数据,其特征就可以通过所收集到的数据刻画出来。

  • 因此,样本的特征是已知的。

  • 描述样本特征的概括性数字度量称之为样本计量(statistics),它是根据样本数据计算出来的一些量,是样本的函数。

  • 样本统计量主要有:样本均值 x ˉ \bar{x} xˉ样本标准差 s s s样本比例 p p p 等。

  • 构成样本的元素的数目称为样本容量样本量(sample size),一般用 n n n表示。

统计方法

有了数据,就可以运用统计分析方法对其进行分析。

统计分析数据的方法大体上可分为描述统计(descriptive statistics)推断统计(inferential statistics) 两大类。

描述统计:是研究数据搜集、处理、描述及可视化的统计学方法,其内容包括如何取得研究所需要的数据,如何用图表形式对数据进行处理和展示,如何通过对数据的综合、概括与分析,得出所关心的数据特征。

推断统计:则是研究如何利用样本数据来推断总体特征的统计学方法,内容包括参数估计(estimation)假设检验(hypothesis test) 两大类。

变量

  • 每天晚上收看天气预报,你会发现今天的气温与明天的气温不同,今天是晴天,明天可能就是多云转阴;
  • 股票市场上的上证股指天天在变化;
  • 每个在职工作人员从事的职业不同、月收入不同;
  • 每个人的文化程度也不相同。

这里的“天气温度”“天气形势”“上证股指”“职业”“月收入”以及“文化程度”就是 变量

它们的特点是从一次观察到下一次观察会出现不同结果。把观察到的结果记录下来就是 数据

数值型数据

数值型数据(numerical data) 以数字作为主要特征,并且这些数字具有明确的数值含义,能够进行运算并且能测量出具体大小和差异。如上面例子中的“天气温度”“上证股指”“月收入”等,这些变量可以用数值表示。

非数值型数据

非数值型数据(non-numeric data) 以事物现象的属性或类别为主要特征。

上面例子中的“天气形势”“职业”和“文化程度”等,都是从现象的属性来表现现象的特征。

如“天气形势”变量的取值“天气晴”和“阴转多云”就是反映两种天气状况;“生产工人”和“公务员”就是两种不同的职业;
“小学”和“大学”就反映了两种完全不同的“文化程度”。

这类数据的最大特点是它只能反映现象的属性特点,而不能刻画出数量的差异。

平均数

平均数也称为均值(mean) ,一般包括算术平均数几何平均数两种形式。

利用平均数可以将处在不同地区、不同单位的某现象进行空间对比分析,也可以将不同时间内的某现象进行时间对比分析,反映现象一般水平的变化趋势和规律。

算数平均数

算术平均数(average) 是一组数据相加后除以数据的个数而得到的结果,是度量数据水平的常用统计量,在参数估计假设检验中经常用到。

比如:用职工平均工资来衡量职工工资的一般水平,用平均体重来观察某一人群体重是否超标等等。

平均数的应用非常广泛,但计算方法比较简单,它等于一个变量的所有观测值相加再除以观测值的数目。

根据所掌握数据的不同,算术平均数有不同的计算公式。

根据未经分组数据计算的平均数称为简单平均数
假设一组样本数据为 x 1 , x 2 , x 3 , . . . . . . , x n x_{1},x_{2},x_{3},......,x_{n} x1,x2,x3,......,xn,样本量为n,则简单样本平均数 x ˉ \bar{x} xˉ 表示,计算公式为:
x ˉ = x 1 , x 2 , x 3 , . . . . . . , x n n = ∑ i = 1 n x i n \bar{x} = \frac{x_{1},x_{2},x_{3},......,x_{n}}{n} = \frac{\sum_{i=1}^n x_{i}}{n} xˉ=nx1,x2,x3,......,xn=ni=1nxi

若原始数据较多且对其进行了分组,编制成了频数分布数列,这时要计算算术平均数则应采用加权算术平均数,即将各组变量值乘以相应的频数,然后加总求和,再除以总频数。
如果数据被分为k个组,其计算公式为:
x ˉ = x 1 f 1 , x 2 f 2 , x 3 f 3 , . . . . . . , x k f k f 1 + f 2 + f 3 + . . . . . . + f k = ∑ i = 1 k x i f i ∑ i = 1 k f i \bar{x} = \frac{x_{1}f_{1},x_{2}f_{2},x_{3}f_{3},......,x_{k}f_{k}}{f_{1}+f_{2}+f_{3}+......+f_{k}} = \frac{\sum_{i=1}^k x_{i}f_{i}}{\sum_{i=1}^kf_{i}} xˉ=f1+f2+f3+......+fkx1f1,x2f2,x3f3,......,xkfk=i=1kfii=1kxifi

几何平均数

何平均数(geometric mean)主要用于计算比率等相对数的平均数,是n个比率乘积的n次方根。几何平均数有两种计算方法:简单几何平均和加权几何平均法。若数据集合中每个数据只出现一次,计算其几何平均数应采用简单几何平均法,其计算公式为:
G = x 1 × x 2 × x 3 × . . . . . . × x n n = ∏ x n G = \sqrt[n]{x_{1} \times x_{2} \times x_{3} \times ...... \times x_{n} } = \sqrt[n]{\prod x} G=nx1×x2×x3×......×xn =nx
其中,G表示几何平均数。

当数据集合中每个数据出现的次数不止一次时,计算平均数应采用加权几何平均法。其计算公式为:
G = x 1 f 1 × x 2 f 2 × x 3 f 3 × . . . . . . × x n f n f 1 + f 2 + f 3 + . . . . . . + f n = ∏ x f ∑ f x G = \sqrt[f_{1}+f_{2}+f_{3}+......+f_{n}]{x_{1}^{f1} \times x_{2}^{f2} \times x_{3}^{f3} \times ...... \times x_{n}^{f_{n}} } = \sqrt[\sum f_{x}]{\prod x^{f}} G=f1+f2+f3+......+fnx1f1×x2f2×x3f3×......×xnfn =fxxf


中位数

中位数(median)是将一组数据按照从小到大的顺序排列(或者从大到小的顺序也可以)之后处在数列中点位置的数值,是典型的位置平均数,不受极端变量值的影响。中位数主要用于顺序数据,也可用数值型数据,但不能用于分类数据。

  • 如果数列是奇数,中位数等于第 n + 1 2 \frac{n+1}{2} 2n+1个数;
    表中标红的位置就是中位数所在的位置:从小到大数的第5个数(也就是 5 + 1 2 \frac{5+1}{2} 25+1),故中位数是5
位置数据
12
23
37
45
59
  • 如果数列是偶数,中位数等于第 n 2 \frac{n}{2} 2n n 2 + 1 \frac{n}{2}+1 2n+1个数的平均数;
    表中标红的位置就是中位数所在的位置,从小到大数的第3个数( 6 2 \frac{6}{2} 26)和第4个数( 6 2 + 1 \frac{6}{2}+1 26+1)之间,故中位数是 7 + 5 2 = 6 \frac{7+5}{2}=6 27+5=6
位置数据
12
23
37
45
59
67

分位数

把顺序排列的一组数据分割为若干相等部分的分割点的数值即为相应的分位数(quantile)。中位数是分位数中最简单的一种,它将数据等分成两分。

四分位数(quartile) 则是将数据按照大小顺序排序后,把数据分割成四等分的三个分割点上的数值。对原始数据,四分位数的位置一般为 n + 1 4 \frac{n+1}{4} 4n+1 2 ( n + 1 ) 4 \frac{2(n+1)}{4} 42(n+1) 3 ( n + 1 ) 4 \frac{3(n+1)}{4} 43(n+1)。如果四分位数的位置不是整数,则四分位数等于前后两个数的加权平均。

十分位数(deciles) 是将数据按照大小顺序排序后,把数据分割成十等分的九个分割点上的数值;百分位数(percentile)是将数据按照大小顺序排序后,把数据分割成一百等分的九十九个分割点上的数值。

众数

众数(mode) ,是指一组数据中出现次数或出现频率最多的数值,它是一种位置平均数,不受极端变量值的影响。

众数主要用于测度分类数据的集中趋势,也可以用来测度顺序数据和数值型数据的集中趋势。

一组数据可以有多个众数,也可能不存在众数,对于未分组的定量数据,我们一般很少使用众数。

异众比率

异众比率(variation ratio) 是指非众数组的频数占总频数的比率,其计算公式为:
V r = 1 − f 0 ∑ f i V_{r} = 1 - \frac{f_{0}}{\sum f_{i}} Vr=1fif0
其中, f 0 f_{0} f0为众数组的频数。

异众比率主要用于衡量众数对一组数据的代表程度。

  • 异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差;
  • 异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。

异众比率主要适合测度分类数据的离散程度,对于顺序数据以及数值型数据也可以计算异众比率。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

M冰

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值