R语言-描述性统计函数

最新推荐文章于 2024-08-04 01:00:00 发布

原创

最新推荐文章于 2024-08-04 01:00:00 发布 · 2.2k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#r语言

本文介绍了R语言中用于描述性统计的多个函数，包括`summary()`、`fivenum()`、`Hmisc::describe()`、`pastecs::stat.desc()`、`psych::describe()`、`aggregate()`、`doBy::summaryBy()`和`psych::describe.by()`。这些函数分别提供了不同层面的统计信息，如分位数、平均数、中位数、唯一值和缺失值等，帮助用户全面了解数据集的特征。

1. summary（）函数：返回最小值，1/4分位数，中位数，3/4分位数，平均数，最大值

> mycars <- mtcars[c("mpg","hp","wt","am")]
> summary(mycars)
      mpg              hp              wt              am        
 Min.   :10.40   Min.   : 52.0   Min.   :1.513   Min.   :0.0000  
 1st Qu.:15.43   1st Qu.: 96.5   1st Qu.:2.581   1st Qu.:0.0000  
 Median :19.20   Median :123.0   Median :3.325   Median :0.0000  
 Mean   :20.09   Mean   :146.7   Mean   :3.217   Mean   :0.4062  
 3rd Qu.:22.80   3rd Qu.:180.0   3rd Qu.:3.610   3rd Qu.:1.0000  
 Max.   :33.90   Max.   :335.0   Max.   :5.424   Max.   :1.0000 
 > summary(mycars$mpg)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  10.40   15.43   19.20   20.09   22.80   33.90

2. fivenum()函数：返回指定列的最小值，1/4分位数，中位数，3/4分位数，平均数，最大值

> fivenum(mycars$mpg)
[1] 10.40 15.35 19.20 22.80 33.90

3. Hmisc包中的describe()函数：返回每一列的个数，缺失值个数，唯一值，平均值等

#  Info是关于变量的连续性的
#  Gmd是基尼均差Gini's Mean Difference
> library(Hmisc)
> describe(mycars)
mycars 

 4  Variables      32  Observations
-----------------------------------------------------------------------------------------------
mpg 
       n  missing distinct     Info     Mean      Gmd      .05      .10      .25      .50 
      32        0       25    0.999    20.09    6.796    12.00    14.34    15.43    19.20 
     .75      .90      .95 
   22.80    30.09    31.30 

lowest : 10.4 13.3 14.3 14.7 15.0, highest: 26.0

最低0.47元/天解锁文章