0 集中趋势度量
01 众数
02 中位数
03 平均数
普通加权:
x
ˉ
=
∑
i
=
1
n
x
i
n
\bar x=\frac {\sum_{i=1}^n x_i}{n}
xˉ=n∑i=1nxi
分组加权:
x
ˉ
=
∑
i
=
1
n
M
i
f
i
n
\bar x=\frac {\sum_{i=1}^n M_if_i}{n}
xˉ=n∑i=1nMifi
其中:
M
i
是
分
组
的
组
中
值
,
f
i
是
此
组
的
频
数
M_i是分组的组中值,f_i是此组的频数
Mi是分组的组中值,fi是此组的频数
1 离散程度度量
一组数据的离散程度是数据分布的重要特征。
定义:离散程度用于衡量各变量值距离其中心值的程度,离散程度越大,则代表用于代表集中趋势的度量值对于这一组数据的代表性也越差。
1.1 分类数据:异众比率
因为分类数据一般采用众数来代表其集中趋势,因此对于分类数据,一般采用异众比率来衡量数据的离散程度。
通俗的解释就是,不是众数的数所占的比例。
数学表达为:
V
r
=
∑
f
i
−
f
m
∑
f
i
V_r=\frac{\sum f_i-f_m}{\sum f_i}
Vr=∑fi∑fi−fm
其中
∑
f
i
\sum f_i
∑fi为数据集合的总频数;
f
m
f_m
fm为众数组的频数。
1.2 顺序数据:四分位差
四分位差(quartile deviation)是上四分位数和下四分位数之差
U
d
=
U
U
−
U
L
U_d=U_U-U_L
Ud=UU−UL
理解:由于顺序数据一般采用中位数来衡量其集中趋势,因此,四分位差实际上表示的是在顺序上处于25%~75%的这50%的数据的极差。
如果这个差越小,那么说明这中间的数据就越集中。也因此,使用中位数来代表整个数据组的集中趋势是比较恰当的。
1.3 数值型数据:方差与标准差
这是在统计分析中最常使用的两个指标。
(1)方差(variance)
描述:方差等于各个变量值和平均值差的平方之和的平均值。
数学公式:
σ
2
=
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
n
\sigma ^2=\frac{\sum_{i=1}^{n}(x_i-\bar x)^2}{n}
σ2=n∑i=1n(xi−xˉ)2
一般在实际使用中,我们求解的是样本方差,那么使用如下公式:
s
2
=
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
n
−
1
s^2=\frac{\sum_{i=1}^{n}(x_i-\bar x)^2}{n-1}
s2=n−1∑i=1n(xi−xˉ)2
其中n-1称为自由度。
如果不想探求其实际的数学意义,可以粗略的理解为,在实际的应用观察中,使用n-1作为样本的方差计算的分母,计算出来的 S 2 S^2 S2是 σ 2 \sigma^2 σ2的无偏估计。因此这个一个为了更好的使得样本方差近似于总体方差而人为设计的。
若想要探求其具体的数学解释和意义,可以移步:
为什么样本方差(sample variance)的分母是 n-1?
(2)标准差
为了在实际运算中,得到保持和变量的量纲一致的,用于衡量数据离散程度的指标。一般也会采用标准差来进行计算。其值等于方差开方。
s
=
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
n
−
1
s=\sqrt\frac{\sum_{i=1}^{n}(x_i-\bar x)^2}{n-1}
s=n−1∑i=1n(xi−xˉ)2
1.4 相对位置度量:Z score
方差和标准差可以帮组我们衡量一组数据其总体的离散程度,但是如果想要考察单个数据其在数据组中的相对位置,我们可以使用Z score来计算。也称为标准分数 Standard score
z score等于变量减去平均值再除以标准差,其值的大小达标测量的变量距离均值有多少个单位的标准差。
例如:z score=-1.5,那么其距离均值低1.5个标准差。
Z
i
=
x
i
−
x
ˉ
s
Z_i=\frac{x_i-\bar x}{s}
Zi=sxi−xˉ
如何理解 Z score(重要)
可以从几何意义上来理解。事实上,通过上述公式,只是对变量值进行了相对位置的变换(或者说将原数据组变成了方差为1,平均数为0的一组数据)而已。
这里也可以随手通过简单的代数变换来证明:
假设现有一组数据
x
1
,
x
2
,
.
.
.
.
x
n
{x_1,x_2,....x_n}
x1,x2,....xn,其均值为
x
ˉ
\bar x
xˉ,方差为s,那么单个数据点
x
1
x_1
x1的z score就是
Z
1
=
x
1
−
x
ˉ
s
Z_1=\frac{x_1-\bar x}{s}
Z1=sx1−xˉ
如果将所有的
Z
1
,
Z
2
.
.
.
Z
n
Z_1,Z_2...Z_n
Z1,Z2...Zn来求均值可以得:
Z
ˉ
=
Z
1
+
Z
2
+
.
.
.
+
Z
n
n
=
x
1
−
x
ˉ
s
+
x
2
−
x
ˉ
s
+
.
.
.
+
x
n
−
x
ˉ
s
n
=
x
1
+
x
2
+
.
.
.
+
x
n
−
n
x
ˉ
n
s
\bar Z=\frac {Z_1+Z_2+...+Z_n}{n}=\frac{\frac{x_1-\bar x}{s}+\frac{x_2-\bar x}{s}+...+\frac{x_n-\bar x}{s}}{n}=\frac{x_1+x_2+...+x_n-n\bar x}{ns}
Zˉ=nZ1+Z2+...+Zn=nsx1−xˉ+sx2−xˉ+...+sxn−xˉ=nsx1+x2+...+xn−nxˉ
而又有:
n
x
ˉ
=
n
∗
x
1
+
x
2
+
.
.
.
+
x
n
n
n\bar x=n*\frac{x_1+x_2+...+x_n}{n}
nxˉ=n∗nx1+x2+...+xn
因此:
Z
ˉ
=
0
\bar Z=0
Zˉ=0
至于为什么这组数据的方差为1,读者可以自己再试着证明一下。
如果懒得证明,可以移步这篇文章查看详细推导过程。
【统计学】关于Z score 的一切(如何由一组数据转变为 平均值为0;方差为1的一组数据)
如果读者有学习过正态分布相关概念,也会很敏锐的察觉到,这就是一个标准正态分布。因此有这样的分布规律
- 大约68%的数据在平均数一个标准差范围内
- 大约95%的数据在平均数两个标准差范围内
- 大约99%的数据在平均数三个标准差范围内
也因为这样的分布规律,我们可以由此判断单独数据点是否属于离群值。
- 对于服从这一分布规律的数据组
我们就可以 通过查看数据点的 Z score来判断其是否属于 离群点。例如z score>3,这是在分布上只有1%的概率,也就是距离均值非常非常远的数据。
这种数据一般在数据处理中会剔除。
- 不服从此分布规律的数据组
使用切比雪夫不等式,对于任何分布形态都适用。
切比雪夫谈论的是“所占比例至少是多少”,其公式为:至少有 1 − 1 k 2 1-\frac {1} {k^2} 1−k21的数据落在k个标准差内。
- k=2时,至少有75%的数据在平均数的两个标准差范围内。
- k=3时,至少有89%的数据在平均数的三个标准差范围内。
1.5 相对离散程度:离散系数
在一组数据中,我们使用方差和标准差来衡量数据的离散程度,但是如果想要衡量两组数据谁的离散程度高,谁的低,那么可能会遇到问题。
例如:
单位 | 数据 | 标准差 |
---|---|---|
m | {1,2,3,4,5,6,7,8} | 2.29128 |
cm | {100,200,300,400,500,600,700,800} | 229.128 |
因此为了消除类似的影响,比较不同数据组的离散程度。一般使用离散系数(coefficient of variation)也称为“变异系数”,其公式为:
v
s
=
s
x
ˉ
v_s=\frac {s} {\bar x}
vs=xˉs
可以认为,离散系数是用于衡量 离散程度 的程度的统计量(套娃)
2 偏态和峰态的度量
数据分布的特点,除了离散程度,集中趋势。通常还会对于分布的形状进行衡量,例如形状是否对称,偏斜的程度,或者分布是否扁平。
2.1 偏态及其测度
偏态 skewness 是对于数据分布对称性的测度
偏态系数 coefficient of skewness 是衡量偏态的统计量
S
K
=
n
∑
(
x
i
−
x
ˉ
)
3
(
n
−
1
)
(
n
−
2
)
s
3
SK=\frac{n\sum(x_i-\bar x)^3}{(n-1)(n-2)s^3}
SK=(n−1)(n−2)s3n∑(xi−xˉ)3
指标含义:
SK取值 | 意义 |
---|---|
SK=0 | 对称分布 |
|SK|>1 | 高度偏态分布 |
0.5<=|SK|<=1 | 中等偏态分布 |
SK取正时,表示右偏态分布,SK为负时,分布为左偏态分布。
2.2 峰态及其测度
峰态是对数据分布平峰或尖峰程度的测度。
峰态系数是 测量峰态的统计量,记作K
TIPS:峰态是一个相对概念,通常是对比标准正态分布而言。标准正态分布的峰态系数=0,若一个数据分布的峰态系数不为0,则说明分布比标准正态分布更加尖或者更加平。
K取值 | 意义 |
---|---|
K=0 | 标准正态分布 |
K>0 | 尖峰分布 |
K<0 | 平峰分布 |
其计算公式为:
K
=
n
(
n
+
1
)
∑
(
x
i
−
x
ˉ
)
−
3
[
∑
(
x
i
−
x
ˉ
)
2
]
2
(
n
−
1
)
(
n
−
1
)
(
n
−
2
)
(
n
−
3
)
s
4
K=\frac{n(n+1)\sum(x_i-\bar x)-3[\sum(x_i-\bar x)^2]^2(n-1)}{(n-1)(n-2)(n-3)s^4}
K=(n−1)(n−2)(n−3)s4n(n+1)∑(xi−xˉ)−3[∑(xi−xˉ)2]2(n−1)
3 总结
总的来说,我们常用的衡量离散程度的有方差,标准差,用于衡量单个变量的离散程度则会涉及到计算 z score;
如果是在几何上查看数据组的分布特征,我们会使用偏态和峰态来查看。
本文部分图片和数据来自于《统计学》第七版,贾俊平。若有侵权,请联系,立马删除。