Pandas中GroupBy的用法与聚合函数的结合应用

Pandas是一个强大的数据分析工具,提供了大量的数据结构和数据分析工具,使得数据分析和处理变得更加高效和简单。其中,GroupBy是Pandas中非常常用的一个功能,它允许用户根据一个或多个键对数据进行分组,并对每个组执行某种形式的计算。

import pandas as pd  
  
# 创建一个示例DataFrame  
df = pd.DataFrame({  
    'A': ['zuo', 'zuo', 'beng', 'beng', 'bar'],  
    'B': ['one', 'one', 'two', 'two', 'one'],  
    'C': [1, 2, 3, 4, 5],  
    'D': [10, 20, 30, 40, 50]  
})  
  
# 根据列'A'进行分组  
grouped = df.groupby('A') 

 

上述代码会输出一个GroupBy对象,该对象包含了按列'A'分组后的数据。但此时并未执行任何计算,只是进行了分组。

二、结合聚合函数使用

GroupBy的真正强大之处在于它可以与各种聚合函数结合使用,对每个组执行计算。Pandas提供了许多常用的聚合函数,如sum、mean、count等,同时也可以自定义聚合函数。

  1. 使用内置聚合函数

    # 计算每个组的'C'列的和  
    result = grouped['C'].sum()  
    print(result)  
      
    # 计算每个组的'D'列的平均值  
    result = grouped['D'].mean()  
    print(result)
    
    
    上边是承接上个代码块的写法。
    我们也可以按如下方法写。
    
    # 计算每个组的'C'列的和  
    result = df.groupby('A') .sum()  
    print(result)  
      
    # 计算每个组的'D'列的平均值  
    result = df.groupby('A') .mean()  
    print(result)

  2. 使用自定义聚合函数,除了内置聚合函数外,还可以定义自己的聚合函数。自定义聚合函数需要接收一个Series对象,并返回一个聚合后的值,同样可以使用匿名函数lambda。
    
    # 定义一个自定义聚合函数,计算每个组的'C'列的最大值和最小值的差  
    def diff_max_min(x):  
        return x.max() - x.min()  
      
    
    #这里传到agg函数中的内容 并非单个值,而是整列的series数据。
    # 使用自定义聚合函数  
    result = grouped['C'].agg(diff_max_min)  
    print(result)
    
    #或者一气呵成
    result = df.groupby('A').agg(diff_max_min)  

    三、多键分组

    除了根据单个键进行分组外,还可以根据多个键进行分组。这只需要在groupby方法中传入一个键的列表即可。

    # 根据列'A'和'B'进行分组  
    grouped = df.groupby(['A', 'B'])  
      
    # 计算每个组的'C'列的和  
    result = grouped['C'].sum()  
    print(result)

    四、对多列应用不同聚合函数

    在实际应用中,我们可能希望对不同的列应用不同的聚合函数。例如,我们可能想对一列求和,对另一列求平均。这可以通过在GroupBy对象上调用agg方法,并传入一个字典来实现,其中字典的键是列名,值是对应的聚合函数。

    # 根据列'A'和'B'进行分组  
    grouped_multi = df.groupby(['A', 'B'])  
      
    # 对'C'列求和,对'D'列求平均  
    result_multi = grouped_multi.agg({'C': 'sum', 'D': 'mean'})  
    print(result_multi)

    五、其他操作

    除了聚合操作,GroupBy对象还提供了其他有用的方法,如size用于计算每个组的大小,count用于计算非空值的数量,以及filter用于根据条件筛选组。这些功能可以进一步增强我们的数据处理和分析能力。

    总之,Pandas的GroupBy功能结合聚合函数为我们提供了强大的数据处理能力,使得我们能够灵活地对数据进行分组和汇总操作,从而更深入地理解数据的结构和特征。通过同时对多列应用不同的聚合函数,我们可以得到更丰富的汇总信息,进一步支持我们的数据分析工作。

  • 11
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值