数据的描述性分析：概括性度量_轻微偏态分布-CSDN博客

本文链接：https://blog.csdn.net/yan_huili/article/details/80503596

通过图表可以对数据分布的形状和特征有一个大致的了解，但要进一步了解数据分布的一些数值特征，就需要用统计量进行描述。一般来说，一组样本数据分布的数值特征可以从以下三个方面进行描述：

1. 数据的水平（集中趋势或位置度量），它反映全部数据的数值大小

2. 数据的差异，反映各数据间的离散程度；

3. 分布的形状，反映数据分布的偏态和峰度。

一、数据水平的描述

数据水平是指其取值的大小，描述数据水平的统计量主要有：平均数、中位数、分位数及众数等。

1. 平均数 mean（）——均值/样本平均数/简单平均数

适用场景：平均数在实际中用的较多，但其缺点是易受极端值的影响，对于严重偏态分布的数据，平均数的代表性较差；

2.中位数 median（）

中位数是一组数据排序后处于中间位置上的数值。即中位数将全部数据等分成两部分，每部分包含50%的数据，一部分比中位数大，另一部分则比中位数小。

（注：当一组数据的长度n为奇数时，中位数为该组数据最中间的数，当n为偶数时，中位数为中间两个数的平均值。）

适用场景：中位数是用中间位置上的值代表数据的水平、其特点是不受极端值的影响，具有统计上的稳健性。当数据呈偏态分布，特别是偏斜程度较大时，其代表性要比平均数好。

同理，一组数据在从小到大排序之后，可以找出排在某个位置上的数值，例如：四分位数（25%&75%），十分位数，百分位数等。求分位数的函数为quantile(x,probs,type)，其中prob为分位数向量，如probs=c(0.25,0.75)，type为求分位数的方法（有不同的类型，但得到的值差别不大）

3. 众数 mode（）

众数是一组数据中出现频数最多的数值，即一组数据分布的峰值点所对应的数值，众数可能不存在，也可能出现两个或多个众数。一般情况下，只有在数据量较大时众数才有意义。

从分布的角度看，平均数是全部数据的算术平均、中位数是处于一组数据中间位置上的值，而众数则始终是一组数据分布的峰值。因此，对于具有单峰分布的大多数数据而言，如果数据的分布是对称的，平均数、中位数、众数必定相等；如果数据呈明显的左偏分布，则说明数据存在极小值，必然拉动平均值向极小值一方靠拢，而众数和中位数是位置代表值，不受极值的影响，此时均值<中位数<众数；如果数据呈现明显的右偏分布，说明数据存在极大值，必然拉动平均值向极大值一方靠，则有众数<中位数<平均值。一般来说，数据分布对称或接近对称时，使用平均数；数据分布明显偏斜时，可以考虑使用中位数或众数。

二、差异的描述

仅知道数据取值的大小是远远不够的，还必须考虑数据之间的差异有多大。数据之间的差异用统计语言来说就是数据的离散程度，数据的离散程度越大，各描述统计量对该组数据的代表性就越差，离散程度越小，各描述统计量对改组数据的代表性就越好。描述样本数据离散程度的统计量主要有：极差、四分位差、方差和标准差，以及离散系数等。

1. 极差range（）

极差是一组数据的最大值与最小值之差，也称为全距。

适用范围：由于极差只是利用了一组数据两端的信息，因而容易受到极端值的影响，不能全面地反映差异状况，因此在实际使用中很少单独使用，而是作为分析数据离散程度的一个参考值。

2. 四分位差

四分位差是一组数据75%位置上的四分位数与25%位置上的四分位数之差，也称为内距或者四分间距

适用范围：四分位差反映了中间50%数据的离散程度，其数值越小，说明中间的数据越集中；数值越大，说明中间的数据越分散。四分位差不受极值的影响。

3. 方差var（）

如果要考虑每个数据与其平均数之间的差异，以此作为一组数据离散程度的度量，则结果要比极差和四分位差更全面准确，这就需要求出每个数据与其平均值离差的平均数，但由于每个数据与其平均值的求和为0，因此就需要一定的处理。一种方法是将离差求绝对值，求和后再平均，这一结果称为平均离差；另一种方法是将离差平方后再求平均数，这一结果称为方差，方差开方后的结果为标准差。

4. 标准差sd（）

标准差是方差开方后的结果，它是一组数据与其平均数相比平均相差的数值。与方差不同的是，标准差具有量纲，它与原始数据的计量单位相同，其实际意义要比方差清楚，因此，在对实际问题进行分析时更多地使用标准差。但是也正因为如此，标准差数值的大小受原始数据取值大小的影响，数据的观测值越大，标准差的值通常也就越大。此外，标准差与原始数据的计量单位相同，采用不同计量单位计量的数据，其标准差的值也不同。因此，对于不同组别的数据，如果原始数据的观测值相差较大或计量单位不同，则不能用标准差直接比较其离散程度，这时需要变异系数。

5. 变异系数（cv<-sd/mean）

变异系数也称为离散系数，它是一组数据的标准差与其相应的平均数之比。

由于离散系数取消了数据取值大小和计量单位对标准差的影响，因此可以反映一组数据的相对离散程度。离散系数主要用于比较不同样本数据的离散程度。离散系数大，说明数据的相对离散程度大；离散系数小，说明数据的相对离散程度小。

6. 标准得分scale（）

有了平均数和标准差之后，可以计算一组数据中每个数值的标准得分，也称标准化。标准得分说的是某个数据与平均数相差多少个标准差，它是某个数据与其平均数的离差除以标准差后的值。而标准化处理，也就是把一组数据转化成具有平均数0，标准差1的新数据。实际上，标准得分只是对原始数据进行了线性变换，它并没有改变某个数值在该组数据中的位置，也没有改变该组数据分布的形状。

标准得分为正，表示该数据比平均值高；标准得分为负，表示该数据比平均值低。它可以用于度量每个数值在该组数据中的相对位置，并可以判断一组数据是否有离群点。经验表明：当一组数据对称分布时，约有68%的数据在正负一个标准差内；约有95%的数据在正负2个标准差内；约有99%的数据在正负3个标准差内，而在3个标准差之外的数据在统计上称为离群点。

但如果一组数据的分布不对称，则需要使用切比雪夫不等式来判断。即对任意分布的数据，至少有（1-1/k^2）的数据落在k个标准差之内，其中，K是大于1的任意值，但不一定是整数。例如：至少有75%的数据落在正负2个标准差内，至少有89%的数据落在正负3个标准差内，至少有94%的数据落在正负4个标准差内。

三、分布形状的描述

通过直方图可以看出数据的分布是否对称，但是想要知道不对称的程度则需要计算相应的描述统计量。偏斜系数与峰度系数分别是对称程度和峰值高低的一种度量。

1. 偏斜系数（skewness(data)）

偏度是指数据分布的不对称性，而测度数据分布不对称性的统计量成为偏斜系数，记作SK

SK=n/(n-1)(n-2)*∑((x-x平均）/s)^3

如果一组数据的分布是对称的，则偏斜系数为0，且偏斜系数越接近0，偏斜程度就越低，分布就越接近对称。若偏斜系数大于1或小于-1，则视为严重偏态分布；若偏斜系数在0.5~1或-1~-0.5之间，则视为中等偏态分布；若偏斜系数小于0.5或大于-0.5，则视为轻微偏态分布。其中，负值表示左偏，正值表示右偏。

2. 峰度系数（kurtosis(data)）

峰度是指数据分布峰值的高低，测度一组数据分布峰值高低的统计量是峰度系数，记作K

峰度通常是与标准正态分布相比较而言的，标准正态分布的峰度系数为0，当K >0时为尖峰分布，数据的分布相对集中；当K<0时为扁平分布，数据的分布相对松散。

四、数据的综合描述

上述各个描述统计量可以使用R包中的函数一次输出

1. pastecs包中的stat.desc()函数

2. psych包中的describe()函数

其中，stat.desc()函数比describe()函数输出的描述统计量要多一些。