R语言与数据的预处理

本文介绍了R语言中数据预处理的关键步骤,包括获取数据的基本信息、绘制直方图、频率统计、正态检验和经验分布。通过示例展示了如何使用R函数进行直方图绘制、分组数据处理及正态性检验,帮助理解大规模数据的分布和特征。
摘要由CSDN通过智能技术生成

         在面对大规模数据时,对数据预处理,获取基本信息是十分必要的。今天分享的就是数据预处理的一些东西。

一、获取重要数据

          在导入大规模数据时,我们通常需要知道数据中的关键内容:最值,均值,离差,分位数,原点矩,离差,方差等。在R中常用的函数与作用整理如下:

统计函数

作用

Max

返回数据的最大值

Min

返回数据的最小值

Which.max

返回最大值的下标

Which.min

返回最小值的下标

Mean

求均值

Median

求中位数

mad

求离差

Var

求方差(总体方差)

Sd

求标准差

Range

返回【最小值,最大值】

Quantile

求分位数

Summary

返回五数概括与均值

Finenum

五数概括(最值,上下四分位数,中位数)

Sort

排序(默认升序,decreasing=T时为降序)

Order

排序(默认升序,decreasing=T时为降序)

Sum

求和

length

求数据个数

emm

Actuar包中求k阶原点矩

skewness

Fbasic包中求偏度

kurtosis

Fbasics包中求峰度

      注:对象为分组数据,矩阵时返回的不是整体的方差,均值,而是每一列(组)的方差均值其余变量类似。

 

二、直方图与频数统计

      对于数据分布的认识,在大规模时有必要使用直方图。在R语言中,直方图的函数调用为:

hist(x, breaks = "Sturges",

  • 1
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值