《统计学基于R》:第三章 数据描述统计量
文章目录
数值特征 | 方面 |
---|---|
数据的水平 | 反应全部的数值大小 |
数据的差异 | 反应各数据间的离散程度 |
数据的分布 | 反应数据分布的偏度和风度 |
3.1 描述水平的统计量
数据分布形态 | 选择哪个统计量来代表数据的水平 |
---|---|
分布对称或接近对称 | 平均数 |
分布明显偏斜 | 分位数或众数 |
3.1.1 平均数
1、特点:消除了观测值的随机波动;易受极端值的影响
2、总体平均数,记为
μ
\mu
μ
3、样本平均数,记为
x
ˉ
\bar{x}
xˉ
4、简单平均数:数据相加后除以数据总个数
# 计算30名学生考试分数的平均数
example3_1<-read.csv("C:/example/chap03/example3_1.csv")
mean(example3_1$分数)
5、加权平均数:各组频数×各组组中值(组下限值与上限值的平均)之和除以频数之和
# 计算30名学生考试分数的加权平均数
example3_2<-read.csv("C:/example/chap03/example3_2.csv")
weighted.mean (example3_2$组中值,example3_2$人数)
3.1.2 分位数
1、分位数:一组数据按从小到大排序后,可以找出排在某个位置上的数值,该数值可以代表数据水平的高低。这些位置上的数值就是相应的分位数。常用的分位数有中位数、(上/下)四分位数、百分位数等。
2、中位数:排序后处于中间位置上的值。不受极端值影响。
# 计算30名学生考试分数的中位数
example3_1<-read.csv("C:/example/chap03/example3_1.csv")
median(example3_1$分数)
3、四分位数:四分位数是指处在25%位置(下四分位数)和75%位置(上四分位数)的两个数值。
# 计算30名学生考试分数的四分位数
quantile(example3_1$分数,probs=c(0.25,0.75),type=6) # type表示计算分位数的不同算法
4、百分位数:用99个点将数据分成100等份,处在各分位点上的数值就是百分位数。百分位数提供了各项数据在最小值和最大值之间分布的信息。
# 计算30名学生考试分数的百分位数
quantile(example3_1$分数, probs=c(0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9), type=6)
3.1.3 众数
众数是一组数据中出现次数最多的数值,用M0表示。一组数据可能没有众数或有几个众数。
# 计算30名学生考试分数的众数
example3_1<-read.csv("C:/example/chap03/example3_1.csv")
library(DescTools)
Mode(example3_1$分数)
3.2 描述差异的统计量
各水平统计量对该组数据的代表程度取决于数据的离散程度。离散程度越大,各水平统计量对该组数据的代表性越差;离散程度越小,其代表程度就越好。
3.2.1 极差和四分位差
1、极差(R):全距,一组数据的最大值与最小值之差。
特点:极差容易受到极端值的影响,不能全面反映差异状况
# 计算极差
example3_1<-read.csv(".//data//example//chap03//example3_1.csv")
range<-max(example3_1$分数)-min(example3_1$分数);range
2、四分位差(IQR):上四分位数与下四分位数之差。
特点:四分位差反映了中间50%数据的离散程度,能够说明中间数据的集中状况,也在一定程度上说明了中位数对一组数据的代表程度。四分位差不受极端值的影响。
# 计算四分位数
IQR(example3_1$分数,type=6)
3.2.2 方差和标准差
1、平均离差(平均绝对离差):离差取绝对值,求和后再平均。n-1是自由度
2、方差:离差平方求和后再平均。n-1是自由度
样本方差记为
s
²
s²
s²
3、标准差:方差开平方根。n-1是自由度
样本标准差记为
s
s
s
# 计算30名学生考试分数的方差和标准差
example3_1<-read.csv("C:/example/chap03/example3_1.csv")
# 样本的方差
var(example3_1$分数)
# 样本的标准差
sd(example3_1$分数)
3.2.3 变异系数
1、方差和标准差的问题:
-
方差和标准差会受到原始数据的影响。数据的观测值越大,标准差的值通常越大。
-
采用不同的计量单位,标准差的值不同。
-
对于不同样本的数据,如果原始数据的观测值相差较大或计量单位不同,就不能用标准差直接比较离散程度。
2、变异系数(CV),也称离散系数:一组数据的标准差与相应平均值之比。
- 变异系数消除了数值大小和计量单位对标准差的影响,反映一组数据的相对离散程度。
- 变异系数主要用于比较不同样本数据的离散程度。数值越大,说明数据的相对离散程度也就越大;数值越小,说明数据的相对离散程度越小。
- 当各组数据的平均值差异不大时,可以直接比较标准差的大小,否则需要计算变异系数。
# 【例3—9】评价哪名运动员的发挥更稳定
example3_9<-read.csv("C:/example/chap03/example3_9.csv")
mean<-apply(example3_9,2,mean)
sd<-apply(example3_9,2,sd)
cv<-sd/mean
x<-data.frame("平均环数"=mean,"标准差"=sd,"变异系数"=cv)
round(x,4)
3.2.4 标准分数
1、标准分数,也称为z分数或标准化值,它可以用于度量每个数据在该组数据中的相对位置,并判断一组数据是否有离群点。
2、标准化公式:某个数据与其平均数的差除以标准差。
3、标准分数描述的是某个数据与平均数的差异,相差了多少个标准差。
4、在对多个具有不同计量单位的变量进行分析时,通常把一组数据转化为均值为0,标准差为1的新数据。(原始数据本身是正态分布时)
5、判断离群点:通常将3个标准差以外的数据确定为离群点。
# 【例3—10】计算例3-1的标准分数
example3_1<-read.csv("C:/example/chap03/example3_1.csv")
as.vector(round(scale(example3_1$分数),4))# scale(x)用于计算标准分数
3.3 描述分布形状的统计量
3.3.1 偏度系数
1、偏度:是指数据分布的不对称性。
2、偏度系数:是测度数据分布不对称性的统计量,记作SK。
- SK=0为对称分布;SK>0为右偏分布;SK<0为左偏分布。SK大于1或小于−1,为高度偏度分布; SK在0.5~1或−1~−0.5之间,为是中等偏度分布; SK越接近0,偏斜程度就越低。
3.3.2 峰度系数
1、峰度:是指数据分布峰值的高低。
2、峰度系数:测度一组数据分布峰值高低的统计量,记作K。
- 峰度通常是与标准正态分布相比较而言的。标准正态分布的峰度系数为0,当K>0时,为尖峰分布,数据分布的峰值比标准正态分布高,数据相对集中;当K<0时,为扁平分布,数据分布的峰值比标准正态分布低,数据相对分散。