Pandas GroupBy 使用教程

实例 1 将分组后的字符拼接

import pandas as pd
df=pd.DataFrame({
    'user_id':[1,2,1,3,3],
    'content_id':[1,1,2,2,2],
    'tag':['cool','nice','clever','clever','not-bad']
})
df
1531909-be4922b99d205a87.png

将df按content_id分组,然后将每组的tag用逗号拼接

df.groupby('content_id')['tag'].apply(lambda x:','.join(x)).to_frame()
1531909-208568c6f7e05079.png

实例2 统计每个content_id有多少个不同的用户

import pandas as pd

df = pd.DataFrame({
    'user_id':[1,2,1,3,3,],
    'content_id':[1,1,2,2,2],
    'tag':['cool','nice','clever','clever','not-bad']
})

df.groupby("content_id")["user_id"].nunique().to_frame()
1531909-0074629c86e20442.png

实例3 分组结果排序

import pandas as pd

df = pd.DataFrame({
    'value':[20.45,22.89,32.12,111.22,33.22,100.00,99.99],
    'product':['table','chair','chair','mobile phone','table','mobile phone','table']
})
df
1531909-1a2e7e39c347d6cd.png
df1 = df.groupby('product')['value'].sum().to_frame().reset_index()
df1

按产品product分组后,然后value求和:


1531909-1e775475bd22e41c.png
df2 = df.groupby('product')['value'].sum().to_frame().reset_index().sort_values(by='value')
df2
1531909-bd8c643d55222433.png

实例4 分组大小绘图

import pandas as pd
import matplotlib.pyplot as plt

df = pd.DataFrame({
    'value':[20.45,22.89,32.12,111.22,33.22,100.00,99.99],
    'product':['table','chair','chair','mobile phone','table','mobile phone','table']
})
df
1531909-6f4d718422e40c32.png
plt.clf()
df.groupby('product').size().plot(kind='bar')
plt.show()
1531909-43aec40277de4f9d.png

实例5 分组求和绘图

import pandas as pd
import matplotlib.pyplot as plt

df = pd.DataFrame({
    'value':[20.45,22.89,32.12,111.22,33.22,100.00,99.99],
    'product':['table','chair','chair','mobile phone','table','mobile phone','table']
})
df
1531909-61920184a86321bf.png
plt.clf()
df.groupby('product').sum().plot(kind='bar')
plt.show()
1531909-ae3d48e187980d9c.png

实例 6 使用agg函数

import pandas as pd

df = pd.DataFrame({
    'value':[20.45,22.89,32.12,111.22,33.22,100.00,99.99],
    'product':['table','chair','chair','mobile phone','table','mobile phone','table']
})

grouped_df = df.groupby('product').agg({'value':['min','max','mean']})
grouped_df
1531909-8acaaf4728fa91dd.png
grouped_df.columns = ['_'.join(col).strip() for col in grouped_df.columns.values]
grouped_df = grouped_df.reset_index()
grouped_df
1531909-1577be3368ec5cf9.png

实例7 遍历分组

for key,group_df in df.groupby('product'):
    print("the group for product '{}' has {} rows".format(key,len(group_df)))  
the group for product 'chair' has 2 rows
the group for product 'mobile phone' has 2 rows
the group for product 'table' has 3 rows

源代码:Python008-Pandas GroupBy 使用教程.ipynb

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值