创 拴小林 数据驱动实践 前天
tidyverse就是Hadley Wickham将自己所写的包整理成了一整套数据处理的方法,包括ggplot2、dplyr、tidyr、readr、purrr、tibble、stringr、forcats。出版有《R for Data Science》(中文版《R数据科学》),这本书详细介绍了tidyverse的使用方法。
tidyverse网址:https://www.tidyverse.org/
书籍网址:https://r4ds.had.co.nz/
The tidyverse is an opinionated collection of R packages designed for data science. All packages share an underlying design philosophy, grammar, and data structures.Install the complete tidyverse with:
install.packages("tidyverse")
library(tidyverse) #加载以下tidyverse中核心的packages:
-
ggplot2:画图,可视化数据
-
dplyr:操控数据,过滤、排序等
-
tidyr:清理数据
-
readr:(从文件中读取数据
-
purrr:(提供好用的编程函数
-
tibble:data.frame升级款
-
stringr:处理字符,查找、替换等
-
forcats:处理因子问题
install.packages("tidyverse") #安装包 关联的包比较多,耐心等待一会儿
library(tidyverse) #使用前,记得载入包
以下讲:readr(读)、tibble(类型)、%>%(管道)、dplyr(加减乘除)、tidyr(透视/反透视)、ggplot2(可视化)
01—readr:数据导入/读取
readr comes with five parsers for rectangular file formats:
-
read_csv() and read_csv2() for csv files,csv文件(逗号分隔的文件,execl文件可以另存为csv文件)【必学】
-
read_tsv() for tabs separated files
-
read_fwf() for fixed-width files
-
read_log() for web log files
> df <- read_csv("df.csv")
-- Column specification -------------------------------------------------------------------
cols(
Sepal.Length = col_double(),
Sepal.Width = col_double(),
Petal.Length = col_double(),
Petal.Width = col_double(),
Species = col_character()
)
> df
# A tibble: 150 x 5
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
<dbl> <dbl> <dbl> <dbl> <chr>
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
4