数据准备是数据分析工作的绝大部分,所消耗的时间约占80%以上,
因此如何有效的提高处理的速度是很有必要的。
R不但是用于分析建模的好工具,在数据预处理方面也有很多便捷的函数使用:
1- apply类函数的使用(R中最好减少loops)
apply类函数使用:
matriz <- matrix(round(runif(9,1,10),0),nrow=3)
apply(matriz, 1, sum) ## sum by row
apply(matriz, 2, sum) ## sum by column
tapply(mtcars$hp, mtcars$cyl, mean)
lista <- list(a=c('one', 'tow', 'three'), b=c(1,2,3), c=c(12, 'a'))
lapply(lista, length) ## return a list
sapply(lista, length) ## coerce to a vector
do.call总会有意想不到的收获--black magic
data <- split(mtcars, mtcars$gear) ## split
fits <- lapply(data, function(x) return(lm(x$mpg~x$disp)$coef)) ## apply
do.call(rbind, fits) ## recombine