《统计学基于R》:第三章 数据描述统计量

《统计学基于R》:第三章 数据描述统计量


在这里插入图片描述

数值特征方面
数据的水平反应全部的数值大小
数据的差异反应各数据间的离散程度
数据的分布反应数据分布的偏度和风度

3.1 描述水平的统计量

数据分布形态选择哪个统计量来代表数据的水平
分布对称或接近对称平均数
分布明显偏斜分位数或众数

3.1.1 平均数

1、特点:消除了观测值的随机波动;易受极端值的影响

2、总体平均数,记为
μ \mu μ
3、样本平均数,记为
x ˉ \bar{x} xˉ
4、简单平均数:数据相加后除以数据总个数

# 计算30名学生考试分数的平均数
example3_1<-read.csv("C:/example/chap03/example3_1.csv")
mean(example3_1$分数)

5、加权平均数:各组频数×各组组中值(组下限值与上限值的平均)之和除以频数之和

# 计算30名学生考试分数的加权平均数
example3_2<-read.csv("C:/example/chap03/example3_2.csv")
weighted.mean (example3_2$组中值,example3_2$人数)

3.1.2 分位数

1、分位数:一组数据按从小到大排序后,可以找出排在某个位置上的数值,该数值可以代表数据水平的高低。这些位置上的数值就是相应的分位数。常用的分位数有中位数、(上/下)四分位数、百分位数等。

2、中位数:排序后处于中间位置上的值。不受极端值影响。

# 计算30名学生考试分数的中位数
example3_1<-read.csv("C:/example/chap03/example3_1.csv")
median(example3_1$分数)

3、四分位数:四分位数是指处在25%位置(下四分位数)和75%位置(上四分位数)的两个数值。

# 计算30名学生考试分数的四分位数
quantile(example3_1$分数,probs=c(0.25,0.75),type=6)    # type表示计算分位数的不同算法

4、百分位数:用99个点将数据分成100等份,处在各分位点上的数值就是百分位数。百分位数提供了各项数据在最小值和最大值之间分布的信息。

# 计算30名学生考试分数的百分位数
quantile(example3_1$分数, probs=c(0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9), type=6)

3.1.3 众数

众数是一组数据中出现次数最多的数值,用M0表示。一组数据可能没有众数或有几个众数。

# 计算30名学生考试分数的众数
example3_1<-read.csv("C:/example/chap03/example3_1.csv")
library(DescTools)
Mode(example3_1$分数)

3.2 描述差异的统计量

各水平统计量对该组数据的代表程度取决于数据的离散程度。离散程度越大,各水平统计量对该组数据的代表性越差;离散程度越小,其代表程度就越好。

3.2.1 极差和四分位差

1、极差(R):全距,一组数据的最大值与最小值之差。

​ 特点:极差容易受到极端值的影响,不能全面反映差异状况

# 计算极差
example3_1<-read.csv(".//data//example//chap03//example3_1.csv")
range<-max(example3_1$分数)-min(example3_1$分数);range

2、四分位差(IQR):上四分位数与下四分位数之差。

​ 特点:四分位差反映了中间50%数据的离散程度,能够说明中间数据的集中状况,也在一定程度上说明了中位数对一组数据的代表程度。四分位差不受极端值的影响。

# 计算四分位数
IQR(example3_1$分数,type=6)

3.2.2 方差和标准差

1、平均离差(平均绝对离差):离差取绝对值,求和后再平均。n-1是自由度

2、方差:离差平方求和后再平均。n-1是自由度

​ 样本方差记为
s ² s² s²
3、标准差:方差开平方根。n-1是自由度

​ 样本标准差记为
s s s

# 计算30名学生考试分数的方差和标准差
example3_1<-read.csv("C:/example/chap03/example3_1.csv")
# 样本的方差
var(example3_1$分数)
# 样本的标准差
sd(example3_1$分数)

3.2.3 变异系数

1、方差和标准差的问题:

  • 方差和标准差会受到原始数据的影响。数据的观测值越大,标准差的值通常越大。

  • 采用不同的计量单位,标准差的值不同。

  • 对于不同样本的数据,如果原始数据的观测值相差较大或计量单位不同,就不能用标准差直接比较离散程度。

2、变异系数(CV),也称离散系数:一组数据的标准差与相应平均值之比。

  • 变异系数消除了数值大小和计量单位对标准差的影响,反映一组数据的相对离散程度。
  • 变异系数主要用于比较不同样本数据的离散程度。数值越大,说明数据的相对离散程度也就越大;数值越小,说明数据的相对离散程度越小。
  • 当各组数据的平均值差异不大时,可以直接比较标准差的大小,否则需要计算变异系数。
# 【例3—9】评价哪名运动员的发挥更稳定
example3_9<-read.csv("C:/example/chap03/example3_9.csv")
mean<-apply(example3_9,2,mean)
sd<-apply(example3_9,2,sd)
cv<-sd/mean
x<-data.frame("平均环数"=mean,"标准差"=sd,"变异系数"=cv)
round(x,4)

3.2.4 标准分数

1、标准分数,也称为z分数或标准化值,它可以用于度量每个数据在该组数据中的相对位置,并判断一组数据是否有离群点。

2、标准化公式:某个数据与其平均数的差除以标准差。

3、标准分数描述的是某个数据与平均数的差异,相差了多少个标准差。

4、在对多个具有不同计量单位的变量进行分析时,通常把一组数据转化为均值为0,标准差为1的新数据。(原始数据本身是正态分布时)

5、判断离群点:通常将3个标准差以外的数据确定为离群点。

# 【例3—10】计算例3-1的标准分数
example3_1<-read.csv("C:/example/chap03/example3_1.csv")
as.vector(round(scale(example3_1$分数),4))# scale(x)用于计算标准分数

3.3 描述分布形状的统计量

3.3.1 偏度系数

1、偏度:是指数据分布的不对称性。

2、偏度系数:是测度数据分布不对称性的统计量,记作SK。

在这里插入图片描述

  • SK=0为对称分布;SK>0为右偏分布;SK<0为左偏分布。SK大于1或小于−1,为高度偏度分布; SK在0.5~1或−1~−0.5之间,为是中等偏度分布; SK越接近0,偏斜程度就越低。

3.3.2 峰度系数

1、峰度:是指数据分布峰值的高低。

2、峰度系数:测度一组数据分布峰值高低的统计量,记作K。
在这里插入图片描述

  • 峰度通常是与标准正态分布相比较而言的。标准正态分布的峰度系数为0,当K>0时,为尖峰分布,数据分布的峰值比标准正态分布高,数据相对集中;当K<0时,为扁平分布,数据分布的峰值比标准正态分布低,数据相对分散。
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

努力不秃头的小仙主

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值