《统计学基于R》：第三章数据描述统计量

努力不秃头的小仙主

已于 2022-06-15 20:45:04 修改

阅读量1k

点赞数 1

分类专栏： R语言文章标签：概率论机器学习数据挖掘 r语言

于 2022-06-15 20:33:54 首次发布

本文链接：https://blog.csdn.net/xiaoxianzhu/article/details/125304263

版权

R语言专栏收录该内容

8 篇文章 8 订阅

订阅专栏

《统计学基于R》：第三章数据描述统计量

文章目录

《统计学基于R》：第三章数据描述统计量

数值特征	方面
数据的水平	反应全部的数值大小
数据的差异	反应各数据间的离散程度
数据的分布	反应数据分布的偏度和风度

3.1 描述水平的统计量

数据分布形态	选择哪个统计量来代表数据的水平
分布对称或接近对称	平均数
分布明显偏斜	分位数或众数

3.1.1 平均数

1、特点：消除了观测值的随机波动；易受极端值的影响

2、总体平均数，记为
$\mu$
3、样本平均数，记为
$\bar{x}$
4、简单平均数：数据相加后除以数据总个数

# 计算30名学生考试分数的平均数
example3_1<-read.csv("C:/example/chap03/example3_1.csv")
mean(example3_1$分数)

5、加权平均数：各组频数×各组组中值（组下限值与上限值的平均）之和除以频数之和

# 计算30名学生考试分数的加权平均数
example3_2<-read.csv("C:/example/chap03/example3_2.csv")
weighted.mean (example3_2$组中值,example3_2$人数)

3.1.2 分位数

1、分位数：一组数据按从小到大排序后，可以找出排在某个位置上的数值，该数值可以代表数据水平的高低。这些位置上的数值就是相应的分位数。常用的分位数有中位数、(上/下)四分位数、百分位数等。

2、中位数：排序后处于中间位置上的值。不受极端值影响。

# 计算30名学生考试分数的中位数
example3_1<-read.csv("C:/example/chap03/example3_1.csv")
median(example3_1$分数)

3、四分位数：四分位数是指处在25%位置（下四分位数）和75%位置（上四分位数）的两个数值。

# 计算30名学生考试分数的四分位数
quantile(example3_1$分数,probs=c(0.25,0.75),type=6)    # type表示计算分位数的不同算法

4、百分位数：用99个点将数据分成100等份，处在各分位点上的数值就是百分位数。百分位数提供了各项数据在最小值和最大值之间分布的信息。

# 计算30名学生考试分数的百分位数
quantile(example3_1$分数, probs=c(0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9), type=6)

3.1.3 众数

众数是一组数据中出现次数最多的数值，用M0表示。一组数据可能没有众数或有几个众数。

# 计算30名学生考试分数的众数
example3_1<-read.csv("C:/example/chap03/example3_1.csv")
library(DescTools)
Mode(example3_1$分数)

3.2 描述差异的统计量

各水平统计量对该组数据的代表程度取决于数据的离散程度。离散程度越大，各水平统计量对该组数据的代表性越差；离散程度越小，其代表程度就越好。

3.2.1 极差和四分位差

1、极差（R）：全距，一组数据的最大值与最小值之差。

特点：极差容易受到极端值的影响，不能全面反映差异状况

# 计算极差
example3_1<-read.csv(".//data//example//chap03//example3_1.csv")
range<-max(example3_1$分数)-min(example3_1$分数);range

2、四分位差（IQR）：上四分位数与下四分位数之差。

特点：四分位差反映了中间50%数据的离散程度，能够说明中间数据的集中状况，也在一定程度上说明了中位数对一组数据的代表程度。四分位差不受极端值的影响。

# 计算四分位数
IQR(example3_1$分数,type=6)

3.2.2 方差和标准差

1、平均离差（平均绝对离差）：离差取绝对值，求和后再平均。n-1是自由度

2、方差：离差平方求和后再平均。n-1是自由度

样本方差记为
$s ²$
3、标准差：方差开平方根。n-1是自由度

样本标准差记为
$s$

# 计算30名学生考试分数的方差和标准差
example3_1<-read.csv("C:/example/chap03/example3_1.csv")
# 样本的方差
var(example3_1$分数)
# 样本的标准差
sd(example3_1$分数)

3.2.3 变异系数

1、方差和标准差的问题：

方差和标准差会受到原始数据的影响。数据的观测值越大，标准差的值通常越大。
采用不同的计量单位，标准差的值不同。
对于不同样本的数据，如果原始数据的观测值相差较大或计量单位不同，就不能用标准差直接比较离散程度。

2、变异系数(CV)，也称离散系数：一组数据的标准差与相应平均值之比。

变异系数消除了数值大小和计量单位对标准差的影响，反映一组数据的相对离散程度。
变异系数主要用于比较不同样本数据的离散程度。数值越大，说明数据的相对离散程度也就越大；数值越小，说明数据的相对离散程度越小。
当各组数据的平均值差异不大时，可以直接比较标准差的大小，否则需要计算变异系数。

# 【例3—9】评价哪名运动员的发挥更稳定
example3_9<-read.csv("C:/example/chap03/example3_9.csv")
mean<-apply(example3_9,2,mean)
sd<-apply(example3_9,2,sd)
cv<-sd/mean
x<-data.frame("平均环数"=mean,"标准差"=sd,"变异系数"=cv)
round(x,4)

3.2.4 标准分数

1、标准分数，也称为z分数或标准化值，它可以用于度量每个数据在该组数据中的相对位置，并判断一组数据是否有离群点。

2、标准化公式：某个数据与其平均数的差除以标准差。

3、标准分数描述的是某个数据与平均数的差异，相差了多少个标准差。

4、在对多个具有不同计量单位的变量进行分析时，通常把一组数据转化为均值为0，标准差为1的新数据。（原始数据本身是正态分布时）

5、判断离群点：通常将3个标准差以外的数据确定为离群点。

# 【例3—10】计算例3-1的标准分数
example3_1<-read.csv("C:/example/chap03/example3_1.csv")
as.vector(round(scale(example3_1$分数),4))# scale(x)用于计算标准分数

3.3 描述分布形状的统计量

3.3.1 偏度系数

1、偏度：是指数据分布的不对称性。

2、偏度系数：是测度数据分布不对称性的统计量，记作SK。

在这里插入图片描述

SK=0为对称分布；SK>0为右偏分布；SK<0为左偏分布。SK大于1或小于−1，为高度偏度分布； SK在0.5～1或−1～−0.5之间，为是中等偏度分布； SK越接近0，偏斜程度就越低。

3.3.2 峰度系数

1、峰度：是指数据分布峰值的高低。

2、峰度系数：测度一组数据分布峰值高低的统计量，记作K。
在这里插入图片描述

峰度通常是与标准正态分布相比较而言的。标准正态分布的峰度系数为0，当K>0时，为尖峰分布，数据分布的峰值比标准正态分布高，数据相对集中；当K<0时，为扁平分布，数据分布的峰值比标准正态分布低，数据相对分散。

努力不秃头的小仙主

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
《统计学基于R》：第三章数据描述统计量

特点：消除了观测值的随机波动；易受极端值的影响简单平均数：数据相加后除以数据总个数加权平均数：各组频数×各组组中值（组下限值与上限值的平均）之和除以频数之和分位数：一组数据按从小到大排序后，可以找出排在某个位置上的数值，该数值可以代表数据水平的高低。这些位置上的数值就是相应的分位数。常用的分位数有中位数、(上/下)四分位数、百分位数等。2、中位数：排序后处于中间位置上的值。不受极端......
复制链接

扫一扫