通过图表可以对数据分布的形状和特征有一个大致的了解,但要进一步了解数据分布的一些数值特征,就需要用统计量进行描述。一般来说,一组样本数据分布的数值特征可以从以下三个方面进行描述:
1. 数据的水平(集中趋势或位置度量),它反映全部数据的数值大小
2. 数据的差异,反映各数据间的离散程度;
3. 分布的形状,反映数据分布的偏态和峰度。
一、数据水平的描述
数据水平是指其取值的大小,描述数据水平的统计量主要有:平均数、中位数、分位数及众数等。
1. 平均数 mean()——均值/样本平均数/简单平均数
适用场景:平均数在实际中用的较多,但其缺点是易受极端值的影响,对于严重偏态分布的数据,平均数的代表性较差;
2.中位数 median()
中位数是一组数据排序后处于中间位置上的数值。即中位数将全部数据等分成两部分,每部分包含50%的数据,一部分比中位数大,另一部分则比中位数小。
(注:当一组数据的长度n为奇数时,中位数为该组数据最中间的数,当n为偶数时,中位数为中间两个数的平均值。)
适用场景:中位数是用中间位置上的值代表数据的水平、其特点是不受极端值的影响,具有统计上的稳健性。当数据呈偏态分布,特别是偏斜程度较大时,其代表性要比平均数好。
同理,一组数据在从小到大排序之后,可以找出排在某个位置上的数值,例如:四分位数(25%&75%),十分位数,百分位数等。求分位数的函数为quantile(x,probs,type),其中prob为分位数向量,如probs=c(0.25,0.75),type为求分位数的方法(有不同的类型,但得到的值差别不大)
3. 众数 mode()
众数是一组数据中出现频数最多的数值,即一组数据分布的峰值点所对应的数值,众数可能不存在,也可能出现两个或多个众数。一般情况下,只有在数据量较大时众数才有意义。
从分布的角度看,平均数是全部数据的算术平均、中位数是处于一组数据中间位置上的值,而众数则始终是一组数据分布的峰值。因此,对于具有单峰分布的大多数数据而言,如果数据的分布是对称的,平均数、中位数、众数必定相等;如果数据呈明显的左偏分布,则说明数据存在极小值,必然拉动平均值向极小值一方靠拢,而众数和中位数是位置代表值,不受极值的影响,此时均值<中位数<众数;如果数据呈现明显的右偏分布,说明数据存在极大值,必然拉动平均值向极大值一方靠,则有众数<中位数<平均值。一般来说,数据分布对称或接近对称时,使用平均数;数据分布明显偏斜时,可以考虑使用中位数或众数。
二、 差异的描述
仅知道数据取值的大小是远远不够的,还必须考虑数据之间的差异有多大。数据之间的差异用统计语言来说就是数据的离散程度,数据的离散程度越大,各描述统计量对该组数据的代表性就越差,离散程度越小,各描述统计量对改组数据的代表性就越好。描述样本数据离散程度的统计量主要有:极差、四分位差、方差和标准差,以及离散系数等。
1. 极差range()
极差是一组数据的最大值与最小值之差,也称为全距。
适用范围:由于极差只是利用了一组数据两端的信息,因而容易受到极端值的影响,不能全面地反映差异状况,因此在实际使用中很少单独使用,而是作为分析数据离散程度的一个参考值。
2. 四分位差
四分位差是一组数据75%位置上的四分位数与25%位置上的四分位数之差,也称为内距或者四分间距
适用范围:四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;数值越大,说明中间的数据越分散。四分位差不受极值的影响。
3. 方差var()
如果要考虑每个数据与其平均数之间的差异,以此作为一组数据离散程度的度量,则结果要比极差和四分位差更全面准确,这就需要求出每个数据与其平均值离差的平均数,但由于每个数据与其平均值的求和为0,因此就需要一定的处理。一种方法是将离差求绝对值,求和后再平均,这一结果称为平均离差;另一种方法是将离差平方后再求平均数,这一结果称为方差,方差开方后的结果为标准差。
4. 标准差sd()
标准差是方差开方后的结果,它是一组数据与其平均数相比平均相差的数值。与方差不同的是,标准差具有量纲,它与原始数据的计量单位相同,其实际意义要比方差清楚,因此,在对实际问题进行分析时更多地使用标准差。但是也正因为如此,标准差数值的大小受原始数据取值大小的影响,数据的观测值越大,标准差的值通常也就越大。此外,标准差与原始数据的计量单位相同,采用不同计量单位计量的数据,其标准差的值也不同。因此,对于不同组别的数据,如果原始数据的观测值相差较大或计量单位不同,则不能用标准差直接比较其离散程度,这时需要变异系数。
5. 变异系数 (cv<-sd/mean)
变异系数也称为离散系数,它是一组数据的标准差与其相应的平均数之比。
由于离散系数取消了数据取值大小和计量单位对标准差的影响,因此可以反映一组数据的相对离散程度。离散系数主要用于比较不同样本数据的离散程度。离散系数大,说明数据的相对离散程度大;离散系数小,说明数据的相对离散程度小。
6. 标准得分scale()
有了平均数和标准差之后,可以计算一组数据中每个数值的标准得分,也称标准化。标准得分说的是某个数据与平均数相差多少个标准差,它是某个数据与其平均数的离差除以标准差后的值。而标准化处理,也就是把一组数据转化成具有平均数0,标准差1的新数据。实际上,标准得分只是对原始数据进行了线性变换,它并没有改变某个数值在该组数据中的位置,也没有改变该组数据分布的形状。
标准得分为正,表示该数据比平均值高;标准得分为负,表示该数据比平均值低。它可以用于度量每个数值在该组数据中的相对位置,并可以判断一组数据是否有离群点。经验表明:当一组数据对称分布时,约有68%的数据在正负一个标准差内;约有95%的数据在正负2个标准差内;约有99%的数据在正负3个标准差内,而在3个标准差之外的数据在统计上称为离群点。
但如果一组数据的分布不对称,则需要使用切比雪夫不等式来判断。即对任意分布的数据,至少有(1-1/k^2)的数据落在k个标准差之内,其中,K是大于1的任意值,但不一定是整数。例如:至少有75%的数据落在正负2个标准差内,至少有89%的数据落在正负3个标准差内,至少有94%的数据落在正负4个标准差内。
三、分布形状的描述
通过直方图可以看出数据的分布是否对称,但是想要知道不对称的程度则需要计算相应的描述统计量。偏斜系数与峰度系数分别是对称程度和峰值高低的一种度量。
1. 偏斜系数(skewness(data))
偏度是指数据分布的不对称性,而测度数据分布不对称性的统计量成为偏斜系数,记作SK
SK=n/(n-1)(n-2)*∑((x-x平均)/s)^3
如果一组数据的分布是对称的,则偏斜系数为0,且偏斜系数越接近0,偏斜程度就越低,分布就越接近对称。若偏斜系数大于1或小于-1,则视为严重偏态分布;若偏斜系数在0.5~1或-1~-0.5之间,则视为中等偏态分布;若偏斜系数小于0.5或大于-0.5,则视为轻微偏态分布。其中,负值表示左偏,正值表示右偏。
2. 峰度系数(kurtosis(data))
峰度是指数据分布峰值的高低,测度一组数据分布峰值高低的统计量是峰度系数,记作K
峰度通常是与标准正态分布相比较而言的,标准正态分布的峰度系数为0,当K >0时为尖峰分布,数据的分布相对集中;当K<0时为扁平分布,数据的分布相对松散。
四、数据的综合描述
上述各个描述统计量可以使用R包中的函数一次输出
1. pastecs包中的stat.desc()函数
2. psych包中的describe()函数
其中,stat.desc()函数比describe()函数输出的描述统计量要多一些。