Pandas中GroupBy的用法与聚合函数的结合应用

最新推荐文章于 2024-07-22 14:16:25 发布

数分大拿的Statham

最新推荐文章于 2024-07-22 14:16:25 发布

阅读量475

点赞数 11

文章标签： pandas 数据分析大数据 etl

本文链接：https://blog.csdn.net/weixin_44228413/article/details/137116486

版权

Pandas是一个强大的数据分析工具，提供了大量的数据结构和数据分析工具，使得数据分析和处理变得更加高效和简单。其中，GroupBy是Pandas中非常常用的一个功能，它允许用户根据一个或多个键对数据进行分组，并对每个组执行某种形式的计算。

import pandas as pd  
  
# 创建一个示例DataFrame  
df = pd.DataFrame({  
    'A': ['zuo', 'zuo', 'beng', 'beng', 'bar'],  
    'B': ['one', 'one', 'two', 'two', 'one'],  
    'C': [1, 2, 3, 4, 5],  
    'D': [10, 20, 30, 40, 50]  
})  
  
# 根据列'A'进行分组  
grouped = df.groupby('A')

上述代码会输出一个GroupBy对象，该对象包含了按列'A'分组后的数据。但此时并未执行任何计算，只是进行了分组。

二、结合聚合函数使用

GroupBy的真正强大之处在于它可以与各种聚合函数结合使用，对每个组执行计算。Pandas提供了许多常用的聚合函数，如sum、mean、count等，同时也可以自定义聚合函数。

使用内置聚合函数

# 计算每个组的'C'列的和  
result = grouped['C'].sum()  
print(result)  
  
# 计算每个组的'D'列的平均值  
result = grouped['D'].mean()  
print(result)


上边是承接上个代码块的写法。
我们也可以按如下方法写。

# 计算每个组的'C'列的和  
result = df.groupby('A') .sum()  
print(result)  
  
# 计算每个组的'D'列的平均值  
result = df.groupby('A') .mean()  
print(result)

使用自定义聚合函数，除了内置聚合函数外，还可以定义自己的聚合函数。自定义聚合函数需要接收一个Series对象，并返回一个聚合后的值，同样可以使用匿名函数lambda。
```
# 定义一个自定义聚合函数，计算每个组的'C'列的最大值和最小值的差  
def diff_max_min(x):  
    return x.max() - x.min()  
  

#这里传到agg函数中的内容 并非单个值，而是整列的series数据。
# 使用自定义聚合函数  
result = grouped['C'].agg(diff_max_min)  
print(result)

#或者一气呵成
result = df.groupby('A').agg(diff_max_min)  
```
三、多键分组

除了根据单个键进行分组外，还可以根据多个键进行分组。这只需要在groupby方法中传入一个键的列表即可。
```
# 根据列'A'和'B'进行分组  
grouped = df.groupby(['A', 'B'])  
  
# 计算每个组的'C'列的和  
result = grouped['C'].sum()  
print(result)
```
四、对多列应用不同聚合函数

在实际应用中，我们可能希望对不同的列应用不同的聚合函数。例如，我们可能想对一列求和，对另一列求平均。这可以通过在GroupBy对象上调用agg方法，并传入一个字典来实现，其中字典的键是列名，值是对应的聚合函数。
```
# 根据列'A'和'B'进行分组  
grouped_multi = df.groupby(['A', 'B'])  
  
# 对'C'列求和，对'D'列求平均  
result_multi = grouped_multi.agg({'C': 'sum', 'D': 'mean'})  
print(result_multi)
```
五、其他操作

除了聚合操作，GroupBy对象还提供了其他有用的方法，如size用于计算每个组的大小，count用于计算非空值的数量，以及filter用于根据条件筛选组。这些功能可以进一步增强我们的数据处理和分析能力。

总之，Pandas的GroupBy功能结合聚合函数为我们提供了强大的数据处理能力，使得我们能够灵活地对数据进行分组和汇总操作，从而更深入地理解数据的结构和特征。通过同时对多列应用不同的聚合函数，我们可以得到更丰富的汇总信息，进一步支持我们的数据分析工作。

数分大拿的Statham

关注

11
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
Pandas中GroupBy的用法与聚合函数的结合应用

总之，Pandas的GroupBy功能结合聚合函数为我们提供了强大的数据处理能力，使得我们能够灵活地对数据进行分组和汇总操作，从而更深入地理解数据的结构和特征。通过同时对多列应用不同的聚合函数，我们可以得到更丰富的汇总信息，进一步支持我们的数据分析工作。其中，GroupBy是Pandas中非常常用的一个功能，它允许用户根据一个或多个键对数据进行分组，并对每个组执行某种形式的计算。在实际应用中，我们可能希望对不同的列应用不同的聚合函数。方法，并传入一个字典来实现，其中字典的键是列名，值是对应的聚合函数。
复制链接

扫一扫