【R语言】必学包之dplyr包

最新推荐文章于 2024-07-20 09:40:11 发布

置顶

Kingsley_W

最新推荐文章于 2024-07-20 09:40:11 发布

阅读量10w+

点赞数 91

分类专栏： R语言文章标签： r语言 dplyr R必学包

本文链接：https://blog.csdn.net/wltom1985/article/details/54973811

版权

R包dplyr可用于处理R内部或者外部的结构化数据，相较于plyr包，dplyr专注接受dataframe对象, 大幅提高了速度,并且提供了更稳健的数据库接口。同时，dplyr包可用于操作Spark的dataframe。本文只是基础的dplyr包学习笔记，所以并不会讨论一些高级应用，或者与data.table包的性能比较。

1. 数据集类型转换

tbl_df()可用于将过长过大的数据集转换为显示更友好的 tbl_df 类型。使用dplyr包处理数据前，建议先将数据集转换为tbl对象。

语法： tbl_df(data)

举例 1：

#data.frame类型数据集
class(mtcars)
#转换为tbl_df类型
ds <- tbl_df(mtcars)
#转换为data.frame类型
df <- as.data.frame(ds)

2. 筛选: filter

filter() 和slice()函数可以按给定的逻辑条件筛选出符合要求的子数据集, 类似于 base::subset() 函数，但代码更加简洁, 同时也支持对同一对象的任意个条件组合（表示AND时要使用&或者直接使用逗号），返回与.data相同类型的对象。原数据集行名称会被过滤掉。

语法： filter(.data, ...)

举例 1：

#过滤出cyl == 8的行
filter(mtcars, cyl == 8)
filter(mtcars, cyl < 6)
#过滤出cyl < 6 并且 vs == 1的行
filter(mtcars, cyl < 6 & vs == 1)
filter(mtcars, cyl < 6, vs == 1)
#过滤出cyl < 6 或者 vs == 1的行
filter(mtcars, cyl < 6 | vs == 1)
#过滤出cyl 为4或6的行
filter(mtcars, cyl %in% c(4, 6))

语法： slice(.data, ...)

slice() 函数通过行号选取数据。

举例 2：

#选取第一行数据
slice(mtcars, 1L)
filter(mtcars, row_number() == 1L)
#选取最后一行数据
slice(mtcars, n())
filter(mtcars, row_number() == n())
#选取第5行到最后一行所有数据
slice(mtcars, 5:n())
filter(mtcars, between(row_number(), 5, n()))

3. 排列: arrange

arrange()按给定的列名依次对行进行排序，类似于base::order()函数。默认是按照升序排序，对列名加 desc() 可实现倒序排序。原数据集行名称会被过滤掉。

语法： arrange(.data, ...)

举例1：

#以cyl和disp联合升序排序
arrange(mtcars, cyl, disp)
#以disp降序排序
arrange(mtcars, desc(disp))

4. 选择: select

select()用列名作参数来选择子数据集。dplyr包中提供了些特殊功能的函数与select函数结合使用，用于筛选变量，包括starts_with，ends_with，contains，matches，one_of，num_range和everything等。用于重命名时，select()只保留参数中给定的列，rename()保留所有的列，只对给定的列重新命名。原数据集行名称会被过滤掉。

语法： select(.data, ...)

举例 1：

iris <- tbl_df(iris)
#选取变量名前缀包含Petal的列
select(iris, starts_with("Petal"))
#选取变量名前缀不包含Petal的列
select(iris, -starts_with("Petal"))
#选取变量名后缀包含Width的列
select(iris, ends_with("Width"))
#选取变量名后缀不包含Width的列
select(iris, -ends_with("Width"))
#选取变量名中包含etal的列
select(iris, contains("etal"))
#选取变量名中不包含etal的列
select(iris, -contains("etal"))
#正则表达式匹配，返回变量名中包含t的列
select(iris, matches(".t."))
#正则表达式匹配，返回变量名中不包含t的列
select(iris, -matches(".t."))
#直接选取列
select(iris, Petal.Length, Petal.Width)
#返回除Petal.Length和Petal.Width之外的所有列
select(iris, -Petal.Length, -Petal.Width)
#使用冒号连接列名，选择多个列
select(iris, Sepal.Length:Petal.Width)
#选择字符向量中的列，select中不能直接使用字符向量筛选，需要使用one_of函数
vars <- c("Petal.Length", "Petal.Width")
select(iris, one_of(vars))
#返回指定字符向量之外的列
select(iris, -one_of(vars))
#返回所有列，一般调整数据集中变量顺序时使用
select(iris, everything())
#调整列顺序，把Species列放到最前面
select(iris, Species, everything())

举例 2：

df <- as.data.frame(matrix(runif(100), nrow = 10))
df <- tbl_df(df[c(3, 4, 7, 1, 9, 8, 5, 2, 6, 10)])
#选择V4，V5，V6三列
select(df, V4:V6)
select(df, num_range("V", 4:6))

语法： rename(.data, ...)

举例 3：

#重命名列Petal.Length，返回子数据集只包含重命名的列
select(iris, petal_length = Petal.Length)
#重命名所有以Petal为前缀的列，返回子数据集只包含重命名的列
select(iris, petal = starts_with("Petal"))
#重命名列Petal.Length，返回全部列
rename(iris, petal_length = Petal.Length)

5.变形: mutate

mutate()和transmute()函数对已有列进行数据运算并添加为新列，类似于base::transform() 函数,

最低0.47元/天解锁文章

Kingsley_W

关注

91
点赞
踩
462

收藏

觉得还不错? 一键收藏
12
评论
【R语言】必学包之dplyr包

R包dplyr可用于处理R内部或者外部的结构化数据，相较于plyr包，dplyr专注接受dataframe对象, 大幅提高了速度,并且提供了更稳健的数据库接口。同时，dplyr包可用于操作Spark的dataframe。1. 数据集类型转换 tbl_df()可用于将过长过大的数据集转换为显示更友好的 tbl_df 类型。使用dplyr包处理数据前，建议先将数据集转换为tbl对象。
复制链接

扫一扫

专栏目录