Python基础操作之模块 -- pandas之groupby函数

wodertianna

于 2024-06-08 13:30:11 发布

阅读量954

点赞数 29

文章标签： python pandas 开发语言

本文链接：https://blog.csdn.net/wodertianna/article/details/139510145

版权

groupby函数是pandas库中一个非常强大的功能，它允许你根据一个或多个列的值对DataFrame或Series进行分组，并对每个组执行各种聚合操作。

示例详解

1. 导入必要的库和创建DataFrame

示例详解

1. 导入必要的库和创建DataFrame

首先，我们需要导入pandas库并创建一个示例DataFrame。

import pandas as pd  

# 创建一个示例DataFrame  
data = {  
    'Name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob', 'Charlie'],  
    'Age': [25, 30, 35, 25, 30, 35],  
    'Score': [85, 90, 75, 95, 85, 80]  
}  
df = pd.DataFrame(data)

2. 使用groupby函数进行分组

接下来，我们使用groupby函数根据'Name'列的值对DataFrame进行分组。

grouped = df.groupby('Name')

这里，grouped是一个DataFrameGroupBy对象，它包含了原始DataFrame的分组信息，但并没有实际的数据。

3. 遍历分组并查看内容

为了查看每个组的内容，我们可以使用for循环遍历grouped对象。

for name, group in grouped:  
    print(f"Group: {name}")  
    print(group)  
    print()

在这个循环中，name是当前组的名称（即'Name'列的一个唯一值），而group是一个包含该组所有行的DataFrame。

4. 对分组执行聚合操作

groupby的主要用途之一是对每个组执行聚合操作。pandas提供了许多内置的聚合函数，如mean(), sum(), count(), min(), max()等。

# 计算每个组的'Score'列的平均值  
average_scores = grouped['Score'].mean()  
print(average_scores)

这里，average_scores是一个Series，其索引是唯一的组名（即不同的名字），值是对应组的'Score'列的平均值。

5. 同时对多个列进行聚合操作

如果你想要同时对多个列进行聚合操作，可以使用agg方法，并传递一个字典，其中键是列名，值是聚合函数。

# 同时计算每个组的'Age'和'Score'列的平均值  
grouped_results = grouped.agg({'Age': 'mean', 'Score': 'mean'}).reset_index()  
print(grouped_results)

在这个例子中，agg方法接受一个字典，其中'Age'和'Score'是列名，'mean'是我们要应用的聚合函数。reset_index()方法用于将结果中的索引重置为一个普通的列，这样结果就是一个普通的DataFrame了。

总结

groupby函数是pandas中用于数据分组和聚合的强大工具。通过它，你可以根据一个或多个列的值将数据划分为不同的组，并对每个组执行各种聚合操作，从而获取有关数据的深入见解。

wodertianna

关注

29
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
Python基础操作之模块 -- pandas之groupby函数

groupby函数是pandas中用于数据分组和聚合的强大工具。通过它，你可以根据一个或多个列的值将数据划分为不同的组，并对每个组执行各种聚合操作，从而获取有关数据的深入见解。
复制链接

扫一扫