在面对大规模数据时,对数据预处理,获取基本信息是十分必要的。今天分享的就是数据预处理的一些东西。
一、获取重要数据
在导入大规模数据时,我们通常需要知道数据中的关键内容:最值,均值,离差,分位数,原点矩,离差,方差等。在R中常用的函数与作用整理如下:
统计函数 |
作用 |
Max |
返回数据的最大值 |
Min |
返回数据的最小值 |
Which.max |
返回最大值的下标 |
Which.min |
返回最小值的下标 |
Mean |
求均值 |
Median |
求中位数 |
mad |
求离差 |
Var |
求方差(总体方差) |
Sd |
求标准差 |
Range |
返回【最小值,最大值】 |
Quantile |
求分位数 |
Summary |
返回五数概括与均值 |
Finenum |
五数概括(最值,上下四分位数,中位数) |
Sort |
排序(默认升序,decreasing=T时为降序) |
Order |
排序(默认升序,decreasing=T时为降序) |
Sum |
求和 |
length |
求数据个数 |
emm |
Actuar包中求k阶原点矩 |
skewness |
Fbasic包中求偏度 |
kurtosis |
Fbasics包中求峰度 |
注:对象为分组数据,矩阵时返回的不是整体的方差,均值,而是每一列(组)的方差均值其余变量类似。
二、直方图与频数统计
对于数据分布的认识,在大规模时有必要使用直方图。在R语言中,直方图的函数调用为:
hist(x, breaks = "Sturges",