数据聚合和分组运算的知识点梳理
在数据集准备好之后,通常的任务是计算分组统计或生成透视表,pandas提供了一个灵活的高效的groupby功能。
关键词: groupby 、 aggregate(使用自定义函数)、transform、apply、pivot_table、crosstab
一、数据分组
groupby
要素:需要分组的列、分组键、函数
示例1:
means = df[‘date1’].groupby([df[‘key1’],df[‘key2’]]).mean() # 对数据1这一列以key1 和key2作为双索引进行分组并
计算分组的平均值
1、分组键也可以是适当长度的数组
示例2:
states = np.array([‘Ohio’,‘California’,‘California’,‘Ohio’,‘Ohio’])
years = np.array([2005,2005,2006,2005,2006])
df = [‘data1’].groupby([states,years]).mean()
2、分组键也可以是列名
示例3:
df.groupby([‘key1’,‘key2]’).mean()
3、对分组进行迭代
示例:
for name,group in df.groupby(‘key1’):
print name
print group
你也可以对这些数据片段做任何操作,比如,将这些数据做成字典
示例:
pieces &