如何使用data.table 进行分组汇总统计

最新推荐文章于 2021-11-30 14:41:25 发布

育种数据分析之放飞自我

最新推荐文章于 2021-11-30 14:41:25 发布

阅读量2.5k

点赞数

分类专栏： R语言

互秀朋友圈呀, 微信: yijiaobani, 备注: 姓名+ 单位

本文链接：https://blog.csdn.net/yijiaobani/article/details/90311843

版权

R语言专栏收录该内容

151 篇文章 63 订阅

订阅专栏

参考

https://stackoverflow.com/questions/12478943/how-to-group-data-table-by-multiple-columns

实际工作中，我们需要对数据进行平均值计算，这里我比较了aggregate和data.table的方法，测试主要包括：

1，对数据yield计算平均值
2，计算N不同水平的平均值
3，计算N和P不同水平的平均值

1. 常规方法aggregate

代码：

data(npk)
head(npk)

aggregate(yield~N,data=npk,FUN = mean)
aggregate(yield~N+P,data=npk,FUN = mean)

结果

> aggregate(yield~N,data=npk,FUN = mean)
  N    yield
1 0 52.06667
2 1 57.68333
> aggregate(yield~N+P,data=npk,FUN = mean)
  N P    yield
1 0 0 51.71667
2 1 0 59.21667
3 0 1 52.41667
4 1 1 56.15000

2. 使用data.table方法

代码：

data(npk)
head(npk)

library(data.table)
setDT(npk)

# 单个变量
npk[,mean(yield),by=N]

# 两个变量
npk[,mean(yield),by=c("N","P")]


# 两个变量的另一种写法
npk[,mean(yield),by=list(N,P)]
npk[,mean(yield),by=.(N,P)]

结果：

> # 单个变量
> npk[,mean(yield),by=N]
   N       V1
1: 0 52.06667
2: 1 57.68333
> 
> # 两个变量
> npk[,mean(yield),by=c("N","P")]
   N P       V1
1: 0 1 52.41667
2: 1 1 56.15000
3: 0 0 51.71667
4: 1 0 59.21667
> 
> 
> # 两个变量的另一种写法
> npk[,mean(yield),by=list(N,P)]
   N P       V1
1: 0 1 52.41667
2: 1 1 56.15000
3: 0 0 51.71667
4: 1 0 59.21667
> npk[,mean(yield),by=.(N,P)]
   N P       V1
1: 0 1 52.41667
2: 1 1 56.15000
3: 0 0 51.71667
4: 1 0 59.21667

要点：

data.table速度更快，语法更简单。

在这里插入图片描述

育种数据分析之放飞自我

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
如何使用data.table 进行分组汇总统计

参考https://stackoverflow.com/questions/12478943/how-to-group-data-table-by-multiple-columns对数据yield计算平均值:计算N不同水平的平均值计算N和P不同水平的平均值1. 常规防范data(npk)head(npk)aggregate(yield~N,data=npk,FUN = m...
复制链接

扫一扫