Pandas是一个强大的数据分析工具,提供了大量的数据结构和数据分析工具,使得数据分析和处理变得更加高效和简单。其中,GroupBy是Pandas中非常常用的一个功能,它允许用户根据一个或多个键对数据进行分组,并对每个组执行某种形式的计算。
import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({
'A': ['zuo', 'zuo', 'beng', 'beng', 'bar'],
'B': ['one', 'one', 'two', 'two', 'one'],
'C': [1, 2, 3, 4, 5],
'D': [10, 20, 30, 40, 50]
})
# 根据列'A'进行分组
grouped = df.groupby('A')
上述代码会输出一个GroupBy对象,该对象包含了按列'A'分组后的数据。但此时并未执行任何计算,只是进行了分组。
二、结合聚合函数使用
GroupBy的真正强大之处在于它可以与各种聚合函数结合使用,对每个组执行计算。Pandas提供了许多常用的聚合函数,如sum、mean、count等,同时也可以自定义聚合函数。
-
使用内置聚合函数
# 计算每个组的'C'列的和 result = grouped['C'].sum() print(result) # 计算每个组的'D'列的平均值 result = grouped['D'].mean() print(result) 上边是承接上个代码块的写法。 我们也可以按如下方法写。 # 计算每个组的'C'列的和 result = df.groupby('A') .sum() print(result) # 计算每个组的'D'列的平均值 result = df.groupby('A') .mean() print(result)
- 使用自定义聚合函数,除了内置聚合函数外,还可以定义自己的聚合函数。自定义聚合函数需要接收一个Series对象,并返回一个聚合后的值,同样可以使用匿名函数lambda。
# 定义一个自定义聚合函数,计算每个组的'C'列的最大值和最小值的差 def diff_max_min(x): return x.max() - x.min() #这里传到agg函数中的内容 并非单个值,而是整列的series数据。 # 使用自定义聚合函数 result = grouped['C'].agg(diff_max_min) print(result) #或者一气呵成 result = df.groupby('A').agg(diff_max_min)
三、多键分组
除了根据单个键进行分组外,还可以根据多个键进行分组。这只需要在groupby方法中传入一个键的列表即可。
# 根据列'A'和'B'进行分组 grouped = df.groupby(['A', 'B']) # 计算每个组的'C'列的和 result = grouped['C'].sum() print(result)
四、对多列应用不同聚合函数
在实际应用中,我们可能希望对不同的列应用不同的聚合函数。例如,我们可能想对一列求和,对另一列求平均。这可以通过在GroupBy对象上调用
agg
方法,并传入一个字典来实现,其中字典的键是列名,值是对应的聚合函数。# 根据列'A'和'B'进行分组 grouped_multi = df.groupby(['A', 'B']) # 对'C'列求和,对'D'列求平均 result_multi = grouped_multi.agg({'C': 'sum', 'D': 'mean'}) print(result_multi)
五、其他操作
除了聚合操作,GroupBy对象还提供了其他有用的方法,如
size
用于计算每个组的大小,count
用于计算非空值的数量,以及filter
用于根据条件筛选组。这些功能可以进一步增强我们的数据处理和分析能力。总之,Pandas的GroupBy功能结合聚合函数为我们提供了强大的数据处理能力,使得我们能够灵活地对数据进行分组和汇总操作,从而更深入地理解数据的结构和特征。通过同时对多列应用不同的聚合函数,我们可以得到更丰富的汇总信息,进一步支持我们的数据分析工作。