分组聚合

最新推荐文章于 2024-04-04 00:50:38 发布

深耕AI

最新推荐文章于 2024-04-04 00:50:38 发布

阅读量1.9k

点赞数 2

本文链接：https://blog.csdn.net/weixin_45037357/article/details/108322903

版权

分组聚合

pandas提供了功能类似于数据库中group by语句的用于拆分数据组的方法pd.groupby()；该方法提供的是分组聚合步骤中的拆分功能，能根据索引或字段对数据进行分组（Split）进而针对得到的多组数据执行聚合操作（Apply），最终合并为最终结果（Combine）。

分组

groupby方法的参数及其说明：

DataFrame.groupby(by=None, axis=0, as_index=True, sort=True)

参数名称	说明
by	接收list，string，mapping或generator。用于确定进行分组的依据。无默认。
axis	接收int。表示操作的轴向，默认对行进行操作。默认为0。
as_index	接收boolearn。表示聚合后的聚合标签是否以DataFrame索引形式输出。默认为True。
sort	接收boolearn。表示是否对分组依据分组标签进行排序。默认为True。

用groupby方法分组后的结果并不能直接查看，而是被存在内存中，输出的是内存地址。实际上分组后的数据对象（Groupby对象）类似Series与DataFrame，是pandas提供的一种对象。

Groupby对象的常用方法：

方法	说明
groupObject.get_group('A')	返回A组的详细数据
groupObject.size()	返回每一组的频数

grouped = data.groupby(by=['class_id', 'gender'])
grouped.get_group((1, 'M'))
grouped = data.groupby(by=['class_id', 'gender'])
grouped.get_group((1, 'M'))

聚合

聚合函数为每个组返回聚合值。当创建了分组(groupby)对象，就可以对每个分组的其他字段数据执行求和、求标准差等操作。

使用聚合函数agg进行组内计算：

grouped = data.groupby(by='class_id')

对于某个字段希望只做求均值操作，而对另一个字段则希望只做求和操作，可以使用字典的方式，将两个字段名分别作为key：

grouped.agg({'age':np.max, 'score':np.mean})

还可以这样：

result = grouped.agg(
    {'age':np.max, 'score':[np.mean, np.max]})
result

pandas支持的聚合函数有：

方法名称	说明
count	计算分组的数目，包括缺失值。
head	返回每组的前n个值。
max	返回每组最大值。
mean	返回每组的均值。
median	返回每组的中位数。
cumcount	对每个分组中组员的进行标记，0至n-1。
size	返回每组的大小。
min	返回每组最小值。
std	返回每组的标准差。
sum	返回每组的和。

透视表

透视表（默认情况下的聚合函数是mean。可以通过aggfunc进行指定）

透视表(pivot table)是各种电子表格程序和其他数据分析软件中一种常见的数据汇总工具。

它根据一个或多个键对数据进行分组聚合，并根据每个分组进行数据汇总。

# 以class_id与gender做分组汇总数据，默认聚合统计所有列
print(data.pivot_table(index=['class_id', 'gender']))

# 以class_id与gender做分组汇总数据，聚合统计score列
print(data.pivot_table(index=['class_id', 'gender'], values=['score']))

# 以class_id与gender做分组汇总数据，聚合统计score列，针对age的每个值列级分组统计
print(data.pivot_table(index=['class_id', 'gender'], values=['score'], columns=['age']))

# 以class_id与gender做分组汇总数据，聚合统计score列，针对age的每个值列级分组统计，添加行、列小计
print(data.pivot_table(index=['class_id', 'gender'], values=['score'], columns=['age'], margins=True))

# 以class_id与gender做分组汇总数据，聚合统计score列，针对age的每个值列级分组统计，添加行、列小计
print(data.pivot_table(index=['class_id', 'gender'], values=['score'],  columns=['age'], margins=True, aggfunc='max'))

深耕AI

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
分组聚合

分组聚合pandas提供了功能类似于数据库中group by语句的用于拆分数据组的方法pd.groupby()；该方法提供的是分组聚合步骤中的拆分功能，能根据索引或字段对数据进行分组（Split）进而针对得到的多组数据执行聚合操作（Apply），最终合并为最终结果（Combine）。分组groupby方法的参数及其说明：DataFrame.groupby(by=None, axis=0, as_index=True, sort=True)参数名称说明 by .
复制链接

扫一扫