【统计学01】概括性描述-集中趋势，离散程度，分布形状度量

最新推荐文章于 2023-04-14 12:09:24 发布

xiaotang_sama

最新推荐文章于 2023-04-14 12:09:24 发布

阅读量1.2w

点赞数 1

分类专栏：数学&运筹优化文章标签：统计学

本文链接：https://blog.csdn.net/xiaotang_sama/article/details/108176890

版权

数学&运筹优化专栏收录该内容

15 篇文章

订阅专栏

0 集中趋势度量

01 众数

02 中位数

03 平均数

普通加权： $\bar x=\frac {\sum_{i=1}^n x_i}{n}$
分组加权： $\bar x=\frac {\sum_{i=1}^n M_if_i}{n}$
其中： $M_i是分组的组中值，f_i是此组的频数$

1 离散程度度量

一组数据的离散程度是数据分布的重要特征。
定义：离散程度用于衡量各变量值距离其中心值的程度，离散程度越大，则代表用于代表集中趋势的度量值对于这一组数据的代表性也越差。

1.1 分类数据：异众比率

因为分类数据一般采用众数来代表其集中趋势，因此对于分类数据，一般采用异众比率来衡量数据的离散程度。
通俗的解释就是，不是众数的数所占的比例。
数学表达为：
$V_r=\frac{\sum f_i-f_m}{\sum f_i}$
其中 $\sum f_i$ 为数据集合的总频数； $f_m$ 为众数组的频数。

1.2 顺序数据：四分位差

四分位差（quartile deviation）是上四分位数和下四分位数之差
$U_d=U_U-U_L$
理解：由于顺序数据一般采用中位数来衡量其集中趋势，因此，四分位差实际上表示的是在顺序上处于25%~75%的这50%的数据的极差。
如果这个差越小，那么说明这中间的数据就越集中。也因此，使用中位数来代表整个数据组的集中趋势是比较恰当的。

1.3 数值型数据：方差与标准差

这是在统计分析中最常使用的两个指标。
（1）方差（variance）
描述：方差等于各个变量值和平均值差的平方之和的平均值。
数学公式：
$\sigma ^2=\frac{\sum_{i=1}^{n}(x_i-\bar x)^2}{n}$
一般在实际使用中，我们求解的是样本方差，那么使用如下公式：
$s^2=\frac{\sum_{i=1}^{n}(x_i-\bar x)^2}{n-1}$
其中n-1称为自由度。

如果不想探求其实际的数学意义，可以粗略的理解为，在实际的应用观察中，使用n-1作为样本的方差计算的分母，计算出来的 $S^2$ 是 $\sigma^2$ 的无偏估计。因此这个一个为了更好的使得样本方差近似于总体方差而人为设计的。

若想要探求其具体的数学解释和意义，可以移步：
为什么样本方差（sample variance）的分母是 n-1？

（2）标准差
为了在实际运算中，得到保持和变量的量纲一致的，用于衡量数据离散程度的指标。一般也会采用标准差来进行计算。其值等于方差开方。
$s=\sqrt\frac{\sum_{i=1}^{n}(x_i-\bar x)^2}{n-1}$

1.4 相对位置度量：Z score

方差和标准差可以帮组我们衡量一组数据其总体的离散程度，但是如果想要考察单个数据其在数据组中的相对位置，我们可以使用Z score来计算。也称为标准分数 Standard score
z score等于变量减去平均值再除以标准差，其值的大小达标测量的变量距离均值有多少个单位的标准差。
例如：z score=-1.5，那么其距离均值低1.5个标准差。
$Z_i=\frac{x_i-\bar x}{s}$

如何理解 Z score(重要)

可以从几何意义上来理解。事实上，通过上述公式，只是对变量值进行了相对位置的变换（或者说将原数据组变成了方差为1，平均数为0的一组数据）而已。

在这里插入图片描述
这里也可以随手通过简单的代数变换来证明：
假设现有一组数据 ${x_1,x_2,....x_n}$ ,其均值为 $\bar x$ ,方差为s，那么单个数据点 $x_1$ 的z score就是
$Z_1=\frac{x_1-\bar x}{s}$
如果将所有的 $Z_1,Z_2...Z_n$ 来求均值可以得：
$\bar Z=\frac {Z_1+Z_2+...+Z_n}{n}=\frac{\frac{x_1-\bar x}{s}+\frac{x_2-\bar x}{s}+...+\frac{x_n-\bar x}{s}}{n}=\frac{x_1+x_2+...+x_n-n\bar x}{ns}$
而又有：
$n\bar x=n*\frac{x_1+x_2+...+x_n}{n}$
因此：
$\bar Z=0$
至于为什么这组数据的方差为1，读者可以自己再试着证明一下。
如果懒得证明，可以移步这篇文章查看详细推导过程。
【统计学】关于Z score 的一切（如何由一组数据转变为平均值为0；方差为1的一组数据）